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本 书 讲解 了 如 何 使 用 Python 22855 d2& Je dV EEFE, PARLE ER TE HR fg 
介 ， 从 页 面 中 抓 取 数据 的 3 种 方法 ， 提 取 组 存 中 的 数据 ， 使 用 多 个 线程 和 进 
程 进行 并 发 抓 取 ， 抓 取 动 态 页 面 中 的 内 容 ， 与 表单 进行 交互 ， 处 理 页 面 中 的 
验证 码 问 题 ， 以 及 使 用 Scarpy 和 Portia 进行 数据 抓 取 ， 并 在 最 后 介绍 了 使 用 
本 书 讲解 的 数据 抓 取 技术 对 几 个 真实 的 网 站 进行 抓 取 的 实例 ， 旨 在 帮助 读者 
活 学 活用 书 中 介绍 的 技术 。 

本 书 适合 有 一 定 Python 编程 经 验 而 且 对 疏 虫 技术 感 兴趣 的 读者 阅读 。 
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关于 作者 


Katharine Jarmul 是 德国 柏林 的 一 位 数据 科学 家 和 Python 支持 者 。 她 经 
营 了 一 家 数据 科学 咨询 公 局 为 不 同 规模 的 企业 提供 诸如 数据 
抽取 、 采集 以 及 建 模 的 服务 。 她 从 2008 年 开始 使 用 Python 进行 编程 ,从 2010 
年 开始 使 用 Python 抓 取 网 站 ， 并 且 在 使 用 网 络 爬 虫 进行 数据 分 析 和 机 器 学 习 
的 不 同 规模 的 初创 企业 中 工作 过 。 读 者 可 以 通过 Twitter (kjam) 关注 她 的 
想法 以 及 动态 。 

Richard Lawson 来 自 澳大利亚 ， 毕 业 于 墨尔本 大 学 计算 机 科学 专业 。 毕 业 
后 ， uL A 为 超过 50 个 国家 的 业务 提供 远程 工 
作 。 他 精通 世界 语 ， 可 以 使 用 汉语 和 韩语 对 话 ， 并 且 积 极 投身 于 开源 软件 事业 。 
他 目前 正在 牛津 大 学 攻读 研究 生 学 位 ， 并 利用 业余 时 间 研 发 自主 无 人 机 。 
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Dimitrios Kouzis-Loukas 在 为 大 小 型 组 织 提供 软件 系统 方面 拥有 超过 15 
年 的 经 验 。 他 近期 的 项 目 通 常 是 具有 超 低 延 迟 及 高 可 用 性 要 求 的 分 布 式 系统 。 
他 是 语言 无 关 论 者 ， 不 过 对 C++ 和 Python 略 有 偏好 。 他 对 开源 有 着 坚定 的 信 
念 ， 他 希望 他 的 贡献 能 够 造福 于 各 个 社区 和 全 人 类 。 

Lazar Telebak 是 一 位 自由 的 Web 开发 人 员 ， 专 注 于 使 用 Python 库 / 框 架 
进行 网 络 抓 取 、 疏 取 和 网 页 索引 的 工作 。 

他 主要 从 事 于 处 理 自 动 化 和 网 站 抓 取 、 疏 取 以 及 导出 数据 到 不 同 格式 ( 包 
括 CSV, JSON, XML 和 TXT) 和 数据 库 〈 如 MongoDB、SQLAlchemy 和 
Postgres) 的 项 目 。 


Lazer 还 拥有 前 端 技术 和 语言 的 经 验 ， 包 括 HTML. CSS. JavaScript 和 
jQuery. 
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互联 网 包含 了 迄今 为 止 最 有 用 的 数据 集 ， 并 且 大 部 分 可 以 免费 公开 访问 。 
但 是 ， 这 些 数 据 难 以 复 用 。 它 们 被 嵌入 在 网 站 的 结构 和 样式 当中 ， 需 要 抽取 
出 来 才能 使 用 。 从 网 页 中 抽取 数据 的 过 程 又 称 为 网 络 息 虫 ， 随 着 越 来 越 多 的 
埋 息 被 发 布 到 网 络 上 ， 网 络 爬 虫 也 变 得 越 来 越 有 用 。 

本 书 使 用 的 所 有 代码 均 已 使 用 Python 3.4+ 测 试 通过 ， 并 且 可 以 在 异步 社 
区 下 载 到 。 

















本 书 内 容 


， 网 络 息 虫 简 介 ， 介 绍 了 什么 是 网 络 息 虫 ， 以 及 如 何 仆 取 网 站 。 
， 数 据 抓 取 ， 展 示 了 如 何 使 用 几 种 库 从 网 页 中 抽取 数据 。 

， 下 载 缓存 ， 介 绍 了 如 何 通过 缓存 结果 避免 重复 下 载 的 问题 。 

， 并 发 下载 ， 教 你 如 何 通过 并 行 下 载 网 站 加 速 数据 抓 取 。 

， 动 态 内 容 ， 介 绍 了 如 何 通过 几 种 方式 从 动态 网 站 中 抽取 数据 。 

， 表 单 交 互 ， 展 示 了 如 何 使 用 输入 及 导航 等 表单 进行 搜索 和 登录 。 
， 验 证 码 处 理 ， 痔 述 了 如 何 访问 被 验证 码 图 像 保护 的 数据 。 


第 8 章 ，Scrapy， 介 绍 了 如 何 使 用 Scrapy 进行 快速 并 行 的 抓 取 ， 以 及 使 
用 Portia 的 Web 界面 构建 网 络 爬 虫 。 


第 9 章 ， 缘 合 应 用 ， 对 你 在 本 书 中 学 到 的 网 络 爬 虫 技术 进行 总 结 。 
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阅读 本 书 的 前 提 


为 了 有 助 于 闸 明 把 取 示例 ， 我 们 创建 了 一 个 示例 网 站 ， 其 网 址 为 
http://example.python-scraping.com。 用 于 生成 该 网 站 的 源 代码 可 以 
从 异步 社区 获取 到 ， 其 中 包含 了 如 何 自行 搭建 该 网 站 的 说 明 。 如 果 你 愿意 的 话 ， 
也 可 以 自己 搭建 它 。 

我 们 决定 为 本 书 示 例 搭 建 一 个 定制 网 站 , 而 不 是 抓 取 活 跃 的 网 站 , 这样 我 
们 就 对 环境 拥有 了 完全 控制 。 这 种 方式 提供 了 稳定 性 ， 因 为 活跃 的 网 站 要 比 
书 中 的 定制 网 站 更 新 更 加 频繁 ， 当 你 党 试 运行 爬虫 示例 时 ， 代 码 可 能 已 经 无 
法 工作 。 另 外 ， 定 制 网 站 允许 我 们 自 定义 示例 ， 便 于 冰释 特定 技巧 并 避免 其 
他 干扰 。 最 后 ， 活 跃 的 网 站 可 能 并 不 欢迎 我 们 使 用 它 作 为 学 习 网 络 爬 虫 的 对 
象 ， 并 且 可 能 会 封禁 我 们 的 爬虫 。 使 用 我 们 自己 定制 的 网 站 可 以 规避 这 些 风 
险 ， 不 过 在 这 些 例子 中 学 到 的 技巧 确实 也 可 以 应 用 到 这 些 活跃 的 网 站 当中 。 





























































































































本 书 读者 





本 书 假 设 你 已 经 拥有 一 定 的 编程 经 验 ， 并 且 本 书 很 可 能 不 适合 零 基 础 的 初 
学 者 阅读 。 本 书 中 的 网 络 爬 虫 示 例 需 要 你 具有 Python 语言 以 及 使 用 pip 安装 模 
块 的 能 力 。 如 果 你 想 复 习 一 下 这 些 知 识 ， 有 一 本 非常 好 的 免费 在 线 书籍 可 以 使 
用 ， 其 书 名 为 Dive Into Python， 作 者 为 Mark Pilgrim， 读 者 可 在 网 上 搜索 并 阅读 。 
这 本 书 也 是 我 初学 Python 时 所 使 用 的 资源 。 

此 外 , 这 些 例子 还 假设 你 已 经 了 解 网 页 是 如 何 使 用 HTML 进行 构建 并 通过 
JavaScript 进行 更 新 的 知识 。 关 于 HITP、CSS、AJAX、WebKit 以 及 Redis 的 
既 有 知识 也 很 有 用 , 不 过 它们 不 是 必需 的 , 这 些 技术 会 在 需要 使 用 时 进行 介绍 。 
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资源 与 支持 


本 书 由 异步 社区 出 品 , 社区 (https://www.epubit.com/) 为 您 提供 相关 资源 和 后 续 服 务 。 











配套 资源 
本 书 提供 如 下 资源 : 
e B 
e 构建 本 书 实例 网 站 的 源码 。 
要 获得 以 上 配套 资源 ， 请 在 异步 社区 本 书页 面 中 点 击 医 研 二， 跳 转 到 下 载 界面 ， 
按 提示 进行 操作 即 可 。 注 意 : 为 保证 购书 读者 的 权益 ， 该 操作 会 给 出 相关 提示 ， 要 求 输 
入 提取 码 进行 验证 。 





















































提交 勘误 
作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 ， 但 难免 会 存在 朴 漏 。 欢 迎 您 将 发 
现 的 问题 反馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 。 
当 您 发 现 错误 时 ， 请 登录 异步 社区 , 按 书 名 搜索 , 进入 本 书页 面 , 点 击 “ 提 交 勘 误 ”， 
输入 勘误 信息 ， 点 击 “提交” 按钮 即 可 。 本 书 的 作者 和 编辑 会 对 您 提交 的 勘误 进行 审核 
确认 并 接受 后 ， 您 将 获 赠 异步 社区 的 100 积分 。 积 分 可 用 于 在 异步 社区 兑换 优惠 券 、 样 
书 或 奖品 。 
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与 我 们 联系 


我 们 的 联系 邮箱 是 contact@epubit.com.cn。 
如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 您 发 邮件 给 我 们 ， 并 请 在 邮件 标题 中 注 明 本 书 
书 名 ， 以 便 我 们 更 高 效 地 做 出 反馈 。 
如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 术 审 校 等 工作 ， 可 
以 发 邮件 给 我 们 ， 有 意 出 版 图 书 的 作者 也 可 以 到 异步 社区 在 线 提交 投稿 〈 直 接 访 问 
www.epubit.com/selfpublish/submission 即 可 ). 
如 果 您 是 学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 其 他 图 书 ， 也 
可 以 发 邮件 给 我 们 。 
如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行为 ， 包 括 对 图 书 全 
部 或 部 分 内 容 的 非 授 权 传播 ， 请 您 将 怀疑 有 侵权 行为 的 链接 发 邮件 给 我 们 。 您 的 这 一 举 
动 是 对 作者 权益 的 保护 ， 也 是 我 们 持续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 
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关于 异步 社区 和 异步 图 书 


“异步 社区 ”是 人 民 邮 电 出 版 社 旗下 IT 专业 图 书社 区 ， 致力 于 出 版 精品 IT 技术 图 书 
和 相关 学 习 产 品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 社 区 创办 于 2015 年 8 H, 提供 大 量 
精品 IT 技术 图 书 和 电子 书 ,以 及 高 品质 技术 文章 和 视频 课程 。 更 多 详情 请 访问 异步 社区 
官网 https://www.epubit.com. 

“异步 图 书 ” 是 由 异步 社区 编辑 团队 策划 出 版 的 精品 T 专业 图 书 的 品牌 ， 依 托 于 人 民 邮 
电 出 版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 团队 ， 相 关 图 书 在 封面 上 印 有 异步 图 书 的 
LOGO. H Eeke 版 领 民 包括 软件 开发 、 大 数据 、AI、 测 试 、 前 端 、 网 络 技术 等 。 
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第 1 章 
P Ze ITE HB fj jr 


欢迎 来 到 网 络 爬 虫 的 广阔 天 地 ! 9928 T6 d c HIT YT e US, 收集 不 太 容易 
以 其 他 格式 获取 的 数据 。 你 可 能 是 正在 撰写 新 报道 的 记者 ， 也 可 能 是 正在 抽 
取 新 数据 集 的 数据 科学 家 。 即 使 你 只 是 临时 的 开发 人 员 ， 网 络 怜 虫 也 是 非常 
有 用 的 工具 ， 比 如 当 你 需要 检查 大 学 网 站 上 最 新 的 家 庭 作业 并 且 和 希望 通过 邮 
件 发 送 给 你 时 。 无 论 你 的 动机 是 什么 ， 我 们 都 希望 你 已 经 准备 好 开始 学 习 了 ! 
在 本 章 中 ， 我 们 将 介绍 如 下 主题 : 






































e [We dui rs 

e 解释 合法 性 质疑 ; 

@ 介绍 Python 3 安装 ; 

e 对 目标 网 站 进行 背景 调研 ; 
e 逐步 完善 一 个 高 级 网 络 爬 虫 ， 
@ 使 用 非 标准 库 协 助 抓 取 网 站 。 





1.1 ”网络 爬虫 何 时 有 用 








假设 我 有 一 个 鞋 店 , 并 且 想 要 及 时 了 解 竞 争 对 手 的 价格 。 我 可 以 每 天 访问 
他 们 的 网 站 ， 与 我 店铺 中 鞋子 的 价格 进行 对 比 。 但 是 ， 如 果 我 店铺 中 的 鞋 类 












































第 1 章 WEB 





品种 繁多 ， 或 是 希望 能 够 更 加 频繁 地 查看 价格 变化 的 话 ， 就 需要 花费 大 量 的 
时 间 ， 甚 至 难以 实现 。 再 举 一 个 例子 ， 我 看 中 了 一 双 鞋 ， 想 等 到 它 促销 时 再 
购买 。 我 可 能 需要 每 天 访问 这 家 鞋 店 的 网 站 来 查看 这 双 鞋 是 否 降 价 ， 也 许 需 
要 等 待 几 个 月 的 时 间 ， 我 才能 如 愿 盼 到 这 双 鞋 促销 。 上 述 这 两 个 重复 性 的 手 
工 流程 ， 都 可 以 利用 本 书 介绍 的 网 络 候 虫 技术 实现 自动 化 处 理 。 

在 理想 状态 下 ， 网 络 怜 虫 并 不 是 必需 品 ， 每 个 网 站 都 应 该 提供 API， 以 结 
构 化 的 格式 共享 它们 的 数据 。 然 而 在 现实 情况 中 ， 虽 然 一 些 网 站 已 经 提供 了 
这 种 API， 但 是 它们 通常 会 限制 可 以 抓 取 的 数据 ， 以 及 访问 这 些 数 据 的 频率 。 
另外 ， 网 站 开发 人 员 可 能 会 变更 、 移 除 或 限制 其 后 端 API。 总 之 ， 我 们 不 能 
仅仅 依赖 于 API 去 访问 我 们 所 需 的 在 线 数据 ， 而 是 应 该 学 习 一 些 网 络 息 虫 技 
术 的 相关 知识 。 











































































































1.2 ”网络 疏 虫 是 否 合法 


尽管 在 过 去 20 年 间 已 经 做 出 了 诸多 相关 裁决 ， 不 过 网 络 谎 虫 及 其 使 用 时 
法 律 所 允许 的 内 容 仍然 处 于 建设 当中 。 如 果 被 抓 取 的 数据 用 于 个 人 用 途 ， 且 
在 合理 使 用 版 权 法 的 情况 下 ， 通 常 没 有 问题 。 但 是 ， 如 果 这 些 数据 会 被 重新 
发 布 ， 并 且 抓 取 行 为 的 攻击 性 过 强 导 致 网 站 宕 机 ， 或 者 其 内 容 受 版 权 保护 ， 
抓 取 行为 违反 了 其 服务 条 球 的 话 ， 那 么 则 有 一 些 法 律 判 例 可 以 提 及 。 

在 Feist Publications, Inc. 起 诉 Rural Telephone Service Co. 的 案件 中 , 美 
国联 邦 最 高 法 院 裁定 抓 取 并 转载 真实 数据 比如， 电话 清单 ) 是 允许 的 。 在 
澳大利亚 , Telstra Corporation Limited 起 诉 Phone Directories Company Pty Ltd 
这 一 类 似 案件 中 ， 则 裁定 只 有 拥有 明确 作者 的 数据 ， 才 可 以 受到 版 权 的 保护 。 
而 在 另 一 起 发 生 于 美国 的 美 联 社 起 诉 融 文 集团 的 内 容 抓 取 案 件 中 ， 则 裁定 对 
美 联 社 新 闻 重 新 聚合 为 新 产品 的 行为 是 侵犯 版 权 的 。 此 外 ， 在 欧盟 的 ofir.dk 
起 诉 home.dk 一 案 中 ， 最 终 裁 定 定期 抓 取 和 深度 链接 是 允许 的 。 

还 有 一 些 案件 中 , 原告 控告 一 些 公司 抓 取 强 度 过 大 , 尝试 通过 法 律 手 段 停 
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1.3 Python 3 


止 其 抓 取 行为 。 在 最 近 的 QVC 诉讼 Resultly 的 案件 中 ， 最 终 裁定 除非 抓 取 行 
为 造成 了 私人 财产 损失 ， 否 则 不 能 被 认定 为 故意 侵害 ， 即 使 您 虫 活动 导致 了 
部 分 站 点 的 可 用 性 问题 。 

这 些 案件 告诉 我 们 ， 当 抓 取 的 数据 是 现实 生活 中 真实 的 公共 数据 《〈 比 如 ， 
营业 地 址 、 电 话 清单 ) 时 ， 在 遵守 合理 的 使 用 规则 的 情况 下 是 允许 转载 的 。 但 
是 ， 如 果 是 原创 数据 比如， 意见 和 评论 或 用 户 隐私 数据 )， 通 常 就 会 受到 版 





权限 制 ， 












































而 不 能 转载 。 无 论 如 何 ， 当 你 抓 取 某 个 网 站 的 数据 时 ， 请 记 住 自 己 是 




















该 网 站 的 访客 ， 应 当 约 束 自己 的 抓 取 行为 ,否则 他 们 可 能 会 封禁 你 的 全 ， 甚 至 
采取 更 进一步 的 法 律 行动 。 这 就 要 求 下 载 请 求 的 速度 需要 限定 在 一 个 合理 值 之 
内 ， 并 且 还 需要 设 定 一 个 专属 的 用 户 代理 来 标识 自己 的 怜 虫 。 你 还 应 该 设法 查 
看 网 站 的 服务 条 球 ， 确 保 你 所 获取 的 数据 不 是 私有 或 受 版 权 保护 的 内 容 。 
如 果 你 还 有 疑虑 或 问题 ， 可 以 向 媒体 律师 咨询 你 所 在 地 区 的 相关 判例 。 
你 可 以 自行 搜索 下 述 法 律 案件 的 更 多 信息 。 








































































































Feist Publications Inc. 起 诉 Rural Telephone Service Co. 的 案件 。 
Telstra Corporation Limited 起 诉 Phone Directories Company Pvt Ltd 的 案 
ff. 


美 联 社 起 诉 融 文集 团 的 案件 。 
ofir.dk 起 诉 home.dk 的 案件 。 
QVC 起 诉 Resultly 的 案件 。 





1.3 Python 3 








在 本 书 中 ， 我 们 将 完全 使 用 Python 3 进行 开发 。Python 软件 基金 会 已 经 
宣布 Python 2 将 会 被 逐步 淘汰 ， 并 且 只 文 持 到 2020 年 ， 出 于 该 原因 ， 我 们 和 
许多 其 他 Python 爱好 者 一 样 ， 已 经 将 开发 转移 到 对 Python 3 的 文 持 当中 ， 在 
本 书 中 我 们 将 使 用 3.6 版 本 。 本 书 代码 将 兼容 Python 3.4+ 的 版 本 。 
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如 果 你 熟悉 Python Virtual Environments 或 Anaconda 的 使 用 ， 那 
么 你 可 能 已 经 知道 如 何在 一 个 新 环境 中 创建 Python 3 了 。 如 果 你 希望 以 全 局 形式 
安装 Python 3， 那 么 我 们 推荐 你 搜索 自己 使 用 的 操作 系统 的 特定 文档 。 就 我 而 言 ， 
我 会 直接 使 用 Virtual Environment Wrapper (https: //virtualenvwrapper. 
readthedocs.io/en/latest)， 这 样 就 可 以 很 容易 地 对 不 同 项 目 和 Python 
版 本 使 用 多 个 不 同 的 环境 了 。 使 用 Conda 环境 或 虚拟 环境 是 最 为 推荐 的 ， 这 样 
你 就 可 以 轻松 变更 基于 项 目 需求 的 依赖 ， 而 不 会 影响 到 你 正在 做 的 其 他 工作 了 。 
对 于 初学 者 来 说 ， 我 推荐 使 用 Conda， 因 为 其 需要 的 安装 工作 更 少 一 些 。 

Conda 的 介绍 文档 (https://conda.io/docs/intro.html) 是 一 
个 不 错 的 开始 ! 























从 此 刻 开 始 ， 所 有 代码 和 命令 都 假设 你 已 正确 安装 Python 3 并 且 正 在 使 用 
Qo Python 3.4+ 的 环境 。 如 果 你 看 到 了 导入 或 语法 错误 ， 请 检查 你 是 否 处 于 正 
确 的 环境 当中 ， 查 看 跟踪 信息 中 是 否 存在 Python 2.7 的 文件 路 径 。 


1.4 ”背景 调研 





在 深入 讨论 仆 取 一 个 网 站 之 前 ,我 们 首先 需要 对 目标 站 点 的 规模 和 结构 进 
行 一 定 程 度 的 了 解 。 网 站 自身 的 robots.txt 和 Sitemap 文件 都 可 以 为 我 
们 提供 一 定 的 帮助 , 此 外 还 有 一 些 能 提供 更 详细 信息 的 外 部 工具 , 比如 Google 
搜索 和 WHOIS. 























1.4.4 检查 robots.txt 


大 多 数 网 站 都 会 定义 robots.txt XF, XET EER T f BBC Pd 
站 时 存在 哪些 限制 。 这 些 限制 虽然 是 仅仅 作为 建议 给 出 ， 但 是 良好 的 网 络 公 
民 都 应 当 遵 守 这 些 限 制 。 在 仆 取 之 前 ， 检 查 robots.txt 文件 这 一 宝贵 资源 
可 以 将 扑 虫 被 封禁 的 可 能 性 降 至 最 低 , 而 且 还 能 发 现 和 网 站 结构 相关 的 线索 。 
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14 背景 调研 





关于 robots .txt 协议 的 更 多 信息 可 以 参见 http://www.robotstxt.org。 
下 面 的 代码 是 我 们 的 示例 文件 robots.txt 中 的 内 容 ， 可 以 访问 
http://example.python-scraping.com/robots.txt 获取 。 





section 1 
User-agent: BadCrawler 
/ 


Disallow: 


section 2 
大 


5 
/trap 


User-agent: 
Crawl-delay: 








Disallow: 





section 3 


Sitemap: http://example.python-scraping.com/si 


temap.xml 


在 section 1 中 ， 

















robots.txt 文件 禁止 用 户 代 理 为 BadCrawler HJE tfe 








取 该 网 站 ， 不 过 这 种 写法 可 能 无 法 起 到 应 有 的 作用 ， 因 为 恶意 爬虫 根本 不 会 
遵从 robots.txt 的 要 求 。 本章 后 面 的 一 个 例子 将 会 展示 如 何 让 扑 虫 自动 遵 
守 robots.txt 的 要 求 。 


section 2 规定 ， 无 论 使 用 哪 种 用 户 代理 ， 都 应 该 在 两 次 下 载 请 求 之 间 给 出 
5 秒 的 抓 取 延迟 ， 我 们 需要 遵从 该 建议 以 避免 服务 器 过 载 。 这 里 还 有 一 个 
/trap 链接 ， 用 于 封禁 那些 息 取 了 不 允许 访问 的 链接 的 恶意 息 虫 。 如 果 你 访 
问 了 这 个 链接 ， 服 务 器 就 会 SH IP 一 分 钟 ! 一 个 真实 的 网 站 可 能 会 对 你 
的 IP 封禁 更 长 时 间 ， 甚 至 是 永久 封禁 。 不 过 如 果 这 样 设置 的 话 ， 我 们 就 无 法 
继续 这 个 例子 了 。 


section 3 定义 了 一 个 Sitemap 文件 ， 我 们 将 在 下 一 节 中 了 解 如 何 检查 该 
文件 。 



























































1.4.2. ”检查 网 站 地 图 














网 站 提供 的 sitemap 文件 〈 即 网 站 地 图 








) 可 以 帮助 息 虫 定位 网 站 最 新 的 











AÈ, 而 无 须 爬 取 每 一 个 网 


页 。 如 果 想 要 了 解 更 多 信息 ,可 以 从 http://www. 
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sitemaps.org/protocol.html 获取 网 站 地 图 标准 的 定义 。 许 多 网 站 发 
布 平 台 都 有 自动 生成 网 站 地 图 的 能 力 。 下 面 是 在 robots.txt 文件 中 定位 到 
的 Sitemap 文件 的 内 容 。 























<?xml version-"1.0" encoding-"UTF-8"?» 
«urlset xmlns-"http://www.sitemaps.org/schemas/sitemap/0.9"» 


«url»«loc»http://example.python-scraping.com/view/Afghanistan-1«/1loc» 
«/url» 


«url»«loc»http://example.python-scraping.com/view/Aland-Islands-2«/loc» 
«/url» 


«url»«loc»http://example.python-scraping.com/view/Albania-3«/loc» 
«/url» 


uec 
网 站 地 图 提供 了 所 有 网 页 的 链接 ， 我 们 会 在 后 面 的 小 节 中 使 用 这 些 信息 ， 
用 于 创建 我 们 的 第 一 个 肘 虫 .虽然 Sitemap 文件 提供 了 一 种 爬 取 网 站 的 有 效 


方式 ， 但 是 我 们 仍 需 对 其 谨慎 处 理 ， 因 为 该 文件 可 能 存在 缺失 、 过 期 或 不 完 
整 的 问题 。 
1.4.3 ”估算 网 站 大 小 
目标 网 站 的 大 小 会 影响 我 们 如 何 进行 仆 取 。 如 果 是 像 我 们 的 示例 站 点 这 样 
只 有 几 百 个 URL 的 网 站 ,效率 并 没有 那么 重要 ; 但 如 果 是 拥有 数 百 万 个 网 页 
的 站 点 ， 使 用 串 行 下 载 可 能 需要 持续 数 月 才能 完成 ， 这 时 就 需要 使 用 第 4 章 
中 介绍 的 分 布 式 下 载 来 解决 了 。 
估算 网 站 大 小 的 一 个 简便 方法 是 检查 Google 爬虫 的 结果 , 因为 Google 很 
可 能 已 经 息 取 过 我 们 感 兴趣 的 网 站 。 我 们 可 以 通过 Google 搜索 的 site 关键 
词 过 滤 域 名 结果 ， 从 而 获取 该 信息 。 我们 可 以 从 http://www.google. 
com/advanced search 了 解 到 该 接口 及 其 他 高 级 搜索 参数 的 用 法 。 
在 域名 后 面 添加 URL 路 径 , 可 以 对 结果 进行 过 滤 , 仅 显示 网 站 的 某 些 部 分 。 
同样 ， 你 的 结果 可 能 会 有 所 不 同 ; 不 过 ， 这 种 附加 的 过 滤 条 件 非常 有 用 ， 
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因为 在 理想 情况 下 ， 你 只 希望 息 取 网 站 中 包含 有 用 数据 的 部 分 ， 而 不 是 候 取 
网 站 的 每 个 页 面 。 


1.4.4 识别 网 站 所 用 技术 


构建 网 站 所 使 用 的 技术 类 型 也 会 对 我 们 如 何 候 取 产 生 有 影响。 有 一 个 十 分 有 
用 的 工具 可 以 检查 网 站 构建 的 技术 类 型 一 GEE6e6tem 模块 ， 该 模块 需要 
Python 3.5+ 环 境 以 及 Docker. WRR RA Z Docker， 可 以 遵照 
https://www.docker.com/products/overview 中 你 使 用 的 操作 系统 
所 对 应 的 说 明 操 作 。 当 Docker 安装 好 后 ， 你 可 以 运行 如 下 命令 。 



































docker pull scrapinghub/splash 
pip install detectem 


述 操作 将 从 ScrapingHub 拉 取 最 新 的 Docker 镜像 ， 并 通过 pip 安装 该 
E o F 了 确保 不 受 任何 更 新 或 改动 的 影响 ， 推 荐 使 用 Python 虚拟 环境 
(https://docs.python.org/3/library/venv.html) 或 Conda 环境 
(https://conda.io/docs/using/envs.html), 并 查看 项 目的 ReadMe 
页 面 (https://github.com/spectresearch/detectem). 























为 什么 使 用 环境 ? 

假设 你 的 项 目 使 用 了 早期 版 本 的 库 进 行 开 发 (比如 detectem), 而 在 最 新 
的 版 本 中 ，detectem 引入 了 一 些 向 后 不 兼容 的 变更 ， 造 成 你 的 项 目 无 法 
正常 工作 。 但是， 你 正在 开发 的 其 他 项 目 中 ， 可 能 使 用 了 更 新 的 版 本 。 如 
果 你 的 项 目 使 用 系统 中 安装 的 detectem， 那 么 当 更 新 库 以 支持 其 他 项 目 

Qo 时 ， 该 项 目 就 会 无 法 运行 。 

Ian Bicking 的 virtualenv 为 解决 该 问题 提供 了 一 个 巧妙 的 解决 方法 , 该 方法 
通过 复制 系统 中 Python 的 可 执行 程序 及 其 依赖 到 一 个 本 地 目录 中 ,创建 了 一 个 
独立 的 Python 环境 . 这 就 能 够 让 一 个 项 目 安装 指定 版 本 的 Python 库 , 而 不 依赖 
于 外 部 系统 。 你 还 可 以 在 不 同 的 虚拟 环境 中 使 用 不 同 的 Python 版 本 。Conda I 
境 中 使 用 了 Anaconda 的 Python 路 径 ， 提 供 了 相似 的 功能 
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detectem 模块 基于 许多 扩展 模块 ， 使 用 一 系列 请 求 和 响应 ， 来 探测 网 
站 使 用 的 技术 。 它 使 用 了 Splash, 这 是 由 ScrapingHub 开发 的 一 个 脚本 化 浏览 
器 。 要 想 运 行 该 模块 ， 只 需 使 用 det 命令 即 可 。 














$ det http://example.python-scraping .com 
[('jauery', '1.11.0')] 


我 们 可 以 看 到 示例 网 站 使 用 了 通用 的 JavaScript 库 ， 因 此 其 内 容 很 可 能 吝 
入 在 HTML 当中 ， 相 对 来 说 应 该 比较 容易 抓 取 。 

detectem 仍然 相当 年 轻 ， 旨 在 成 为 Wappalyzer 的 Python 对 标 版 本 ， 
Wappalyzer 是 一 个 基于 Nodes WHEA, SAIA Eaim S E 
JavaScript E e E. 你 也 可 以 在 Docker 中 运行 Wappalyzer。 首 先 
需要 下 载 其 Docker 镜像 ， 运 行 如 下 命令 。 














$ docker pull wappalyzer/cli 
然后 ， 你 可 以 从 Docker 实例 中 运行 脚本 。 


$ docker run wappalyzer/cli http://example.python-scraping.com 


输出 结果 不 太 容易 阅读 , 不 过 当 我 们 将 其 拷贝 到 JSON 解析 器 中 , 可 以 看 
到 检测 出 来 的 很 多 库 和 技术 。 





('applications': 

[('categories': ['Javascript Frameworks'], 
'confidence': '100', 
'icon': 'Modernizr.png', 
'name': 'Modernizr', 
'version': TEF, 

('categories': ['Web Servers'], 
'confidence': '100', 
'icon': 'Nginx.svg', 
'name': 'Nginx', 
'version': ''], 

('categories': ['Web Frameworks'], 
'confidence': '100', 
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'icon': 'Twitter Bootstrap.png', 





'name': 'Twitter Bootstrap', 
'version': ''], 

('categories': ['Web Frameworks'], 
'confidence': '100', 
'icon': 'Web2py.png', 
'name': 'Web2py', 
'version': ''], 

('categories': ['Javascript Frameworks'], 
'confidence': '100', 
'icon': 'jQuery.svg', 
'name': 'jQuery', 
'version': ''], 

('categories': ['Javascript Frameworks'], 
'confidence': '100', 
'icon': 'jQuery UI.svg', 
'name': 'jQuery UI', 
'version': '1.10.3'], 

('categories': ['Programming Languages'], 
'confidence': '100', 





'icon': 'Python.png', 

'name': 'Python', 

'"yersion"'i; EREL} 
'originalUrl': 'http://example.python-scraping.com', 
'url': 'http://example.python-scraping.com') 

















从 上 面 可 以 看 出 ， 检 测 结果 认为 Python 和 web2py 框架 具有 很 高 的 可 信 
度 。 我 们 还 可 以 看 到 网 站 使 用 了 前 端 CSS 框架 Twitter Bootstrap. Wappalyzer 





还 检测 到 网 站 使 用 了 Modernizerjs 以 及 用 于 后 端 服务 器 的 Nginx。 由 











于 网 站 只 


使 用 了 JQuery 和 Modernizer, 那么 网 站 不 太 可 能 全 部 页 面 都 是 通过 JavaScript 
加 载 的 。 而 如 果 改 用 AngularJS 或 React 构建 该 网 站 的 话 ， 此 时 的 网 站 内 容 很 
可 能 就 是 动态 加 载 的 了 。 另 外 ， 如 果 网 站 使 用 了 ASPNET， 那 么 在 爬 取 网 页 
时 ， 就 必须 要 用 到 会 话 管理 和 表单 提交 了 。 对 于 这 些 更 加 复杂 的 情况 ， 我 们 









































会 在 第 5 章 和 第 6 章 中 进行 介绍 。 


1.4.5 “寻找 网 站 所 有 者 


对 于 一 些 网 站 ,我 们 可 能 会 关心 其 所 有 者 是 谁 。 比 如 ,我 们 已 知 网 站 的 所 有 
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者 会 封禁 网 络 爬 虫 ， 那 么 我 们 最 好 把 下 载 速度 控制 得 更 加 保守 一 些 。 为 了 找到 





网 站 的 所 有 者 ， 我 们 可 以 使 用 WHOIS 协议 查询 域 
一 个 针对 该 协议 的 封装 库 ， 其 文档 地 址 为 ht 








名 的 注册 者 是 谁 。Python 中 有 








tps://pypi.python.org/ 





pypi/python-whois， 我 们 可 以 通过 pip 进行 安装 。 


pip install python-whois 


下 面 是 使 用 该 模块 对 appspot .com 这 个 域名 进行 WHOIS 查询 时 返回 结 


果 的 核心 部 分 。 


>>> import whois 
>>> print(whois.whois('appspot.com')) 
( 


"name servers": [ 
"NS1.GOOGLE.COM", 
"NS2.GOOGLE.COM", 
"NS3.GOOGLE.COM", 
"NS4.GOOGLE.COM", 
"ns4.google.com", 
"ns2.google.com", 
"nsl.google.com", 
"ns3.google.com" 


"org": "Google Inc.", 

"emails": [ 
"abusecomplaintsQmarkmonitor.com", 
"dns-admin(8google.com" 

] 

) 








从 结果 中 可 以 看 出 该 域名 归属 于 Google， 实 际 上 也 确实 如 此 。 该 域名 是 
用 于 Google App Engine 服务 的 。Google 经 常会 阻 断 网 络 念 虫 ， 尽管 实际 上 其 
自身 就 是 一 个 网 络 爬 虫 业务 。 当 我 们 故 取 该 域名 时 需要 十 分 小 心 ， 因 为 
Google 经 常会 阻 断 抓 取 其 服务 过 快 的 IP; 而 你 ， 或 与 你 生活 或 工作 在 一 起 

















的 人 ， 可 能 需要 使 用 Google 的 服务 。 我 经 历 过 
后 ， 被 要 求 输入 验证 码 的 情况 ， 甚 至 只 是 在 对 























在 使 用 Google 服务 一 段 时 间 
Google 域名 运行 了 简单 的 搜 
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为 了 抓 取 网 站 , 我 们 首先 需要 下 载 包 含有 感 兴趣 数据 的 网 页 , 该 过 程 一 般 
MAWR (crawling )。 疏 取 一 个 网 站 有 很 多 种 方法 ， 而 选用 哪 种 方法 更 加 合 
适 ， 则 取决 于 目标 网 站 的 结构 。 本 章 中 ， 我 们 首先 会 探讨 如 何 安全 地 下 载 网 
页 ， 然 后 会 介绍 如 下 3 种 爬 取 网 站 的 常见 方法 : 

e JEN viu. 

e 使 用 数据 库 ID 遍历 每 个 网 页 ; 

e 跟踪 网 页 链接 。 

到 目前 为 止 , 我 们 交 蔡 使 用 了 抓 取 和 息 取 这 两 个 术语 , 接 下 来 让 我 们 先 来 
定义 这 两 种 方法 的 相似 点 和 不 同 点 。 


1.5.4 抓 取 与 怜 取 的 对 比 


根据 你 所 关注 的 信息 以 及 站 点 内 容 和 结构 的 不 同 , 你 可 能 需要 进行 网 络 抓 
取 或 是 网 站 爬 取 。 那 么 它们 有 什么 区 别 呢 ? 

网 络 抓 取 通常 针对 特定 网 站 ,并 在 这 些 站 点 上 获取 指定 信息 。 网 络 抓 取 用 于 
访问 这 些 特定 的 页 面 ， 如 果 站 点 发 生变 化 或 者 站 点 中 的 信息 位 置 发 生变 化 的 话 ， 
则 需要 进行 修改 。 例 如 ， 你 可 能 想 要 通过 网 络 抓 取 碍 看 你 喜欢 的 当地 和 餐厅 的 每 
日 特色 菜 ， 为 了 实现 该 目的 ， 你 需要 抓 取 其 网 站 中 日 常 更 新 该 信息 的 部 分 。 

与 之 不 同 的 是 , 网 络 息 取 通常 是 以 通用 的 方式 构建 的 ,其 目标 是 一 系列 顶 
级 域名 的 网 站 或 是 整个 网 络 。 爬 取 可 以 用 来 收集 更 具体 的 信息 ， 不 过 更 常见 
的 情况 是 爬 取 网 络 ， 从 许多 不 同 的 站 点 或 页 面 中 获取 小 而 通用 的 信息 ， 然 后 
跟踪 链接 到 其 他 页 面 中 。 
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BR TERAMI h 我 们 还 会 在 第 8 章 中 介绍 网 络 爬 虫 。 ER AHRNE 
取 指 定 的 一 系列 网 站 , 或 是 在 多 个 站 点 甚至 整个 互联 网 中 进行 更 广泛 的 息 取 。 

一 般 来 说 ,我 们 会 使 用 特定 的 术语 反映 我 们 的 用 例 , 在 你 开发 网 络 候 虫 时 ， 
可 能 会 注意 到 它们 在 你 想 要 使 用 的 技术 、 库 和 包 中 的 区 别 。 在 这 些 情况 下 ， 
你 对 不 同 术 语 的 理解 , 可 以 帮助 你 基于 所 使 用 的 术语 选择 适当 的 包 或 技术 ( 例 
如 ， 是 否 只 用 于 抓 取 ? 是 否 也 适用 于 爬虫 ? )。 
































1.5.2 下 载 网 页 


要 想 抓 取 网 页 , 我 们 首先 需要 将 其 下 载 下 来 。 下面 的 示例 脚本 使 用 Python 
的 urllib 模块 下 载 URL. 











import urllib.request 
def download (url): 
return urllib.request.urlopen(url).read() 


AMEN URL 参数 时 ， 该 函数 将 会 下 载 网 页 并 返回 其 HIML。 不 过 ， 这 个 
代码 片段 存在 一 个 问题 ， 即 当下 载 网 页 时 ， 我 们 可 能 会 遇 到 一 些 无 法 控制 的 
普 误 ， 比 如 请 求 的 页 面 可 能 不 存在 。 此 时 ，urllipb 会 抛 出 异常 ， 然 后 退出 
脚本 。 安 全 起 见 ， 下 面 再 给 出 一 个 更 稳 建 的 版 本 ， 可 以 捕获 这 些 异 向 。 























import urllib.request 











from urllib.error import URLError, HTTPError, ContentTooShortError 


def download (url): 
print('Downloading:', url) 
try: 
html = urllib.request.urlopen(url).read() 








except (URLError, HTTPError, ContentTooShortError) as e: 
print('Download error:', e.reason) 
html = None 

return html 


现在 ， 当 出 现下 载 或 URL 错误 时 ， 该 函数 能 够 捕获 到 异常 ， 然 后 返回 


None。 
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在 本 书 中 , 我 们 将 假设 你 在 文件 中 编写 代码 , 而 不 是 使 用 提示 符 的 方式 (如 
上 述 代码 所 示 )。 当 你 发 现代 码 以 Python 提示 符 >>> 或 IPython 提示 符 In 

6 [1]: 开始 时 ， 你 需要 将 其 输入 到 正在 使 用 的 主 文件 中 ， 或 是 保存 文件 后 ， 
在 Python 解释 器 中 导入 这 些 函数 和 类 。 


1. 重 试 下 载 


下 载 时 遇 到 的 错误 经 常 是 临时 性 的 ， 比 如 服务 器 过 载 时 返回 的 503 
Service Unavailable 错误 。 对 于 此 类 错误 ， 我 们 可 以 在 短暂 等 待 后 尝试 
重新 下 载 ， 因 为 这 个 服务 器 问题 现在 可 能 已 经 解决 。 不 过 ， 我 们 不 需要 对 所 有 
音 误 都 尝试 重新 下 载 。 如 果 服 务 器 返回 的 是 404 Not Found 这 种 错误 ， 则 说 
明 该 网 页 目前 并 不 存在 ， 再 次 尝试 同样 的 请 求 一 般 也 不 会 出 现 不 同 的 结果 。 

互联 网 工程 任务 组 (Internet Engineering Task Force) 定义 了 HTTP 错误 的 完整 
列表 ， 从 中 可 以 了 解 到 4xx 错误 发 生 在 请 求 存 在 问题 时 ， 而 5xx 错误 则 发 生 
在 服务 端 存在 问题 时 。 所 以 , 我 们 只 需要 确保 download 函数 在 发 生 5xx f 
误 时 重 试 下 载 即 可 。 下 面 是 文 持 重 试 下 载 功 能 的 新 版 本 代码 。 


















































def download(url, num retries=2): 
print('Downloading:', url) 
CEY 
html = urllib.request.urlopen(url).read() 





except (URLError, HTTPError, ContentTooShortError) as e: 





print('Download error:', e.reason) 
html - None 
if num retries » O0: 
if hasattr(e, 'code') and 500 <= e.code < 600: 
f recursively retry 5xx HTTP errors 





return download(url, num retries - 1) 
return html 


现在 ， 当 download 函数 遇 到 5xx 错误 人 码 时 ， 将 会 递归 调用 函数 自身 进 
行 重 试 。 此 外 ， 该 函数 还 增加 了 一 个 参数 ， 用 于 设 定 重 试 下载 的 次 数 ， 其 默认 
值 为 两 次 。 我 们 在 这 里 限制 网 页 下 载 的 尝试 次 数 ， 是 因为 服务 器 错误 可 能 暂时 
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还 没有 恢复 。 想 要 测试 该 函数 ， 可 以 尝试 下 载 nttp://httpstat.us/500， 
该 网 址 会 始终 返回 500 错误 码 。 


>>> download('http://httpstat.us/500') 
Downloading: http://httpstat.us/500 
Download error: Internal Server Error 
Downloading: http://httpstat.us/500 
Download error: Internal Server Error 
Downloading: http://httpstat.us/500 
Download error: Internal Server Error 


从 上 面 的 返回 结果 可 以 看 出 ，downloag 函数 的 行为 和 预期 一 致 ， 先 党 
试 下 载 网 页 ， 在 接收 到 500 错误 后 ， 又 进行 了 两 次 重 试 才 放 弃 。 

2. 设置 用 户 代理 
默认 情况 下 ，ur1l1lip 使 用 Python-urllib/3.x 作为 用 户 代理 下 载 网 页 
内 容 ， 其 中 3 .x 是 环境 当前 所 用 Python 的 版 本 号 。 如 果 能 使 用 可 辨识 的 用 户 代 
理 则 更 好 ， 这 样 可 以 避免 我 们 的 网 络 爬 虫 碰 到 一 些 问题 。 此 外 ， 也 许 是 因为 曾经 
历 过 质量 不 佳 的 Python 网 络 爬 虫 造成 的 服务 器 过 载 , 一 些 网 站 还 会 封禁 这 个 默认 
的 用 户 代 理 

因此 ,为 了 使 下 载 网 站 更 加 可 靠 ， 我 们 需要 控制 用 户 代 理 的 设 定 。 下 面 的 
代码 对 download 函数 进行 了 修改 , 设 定 了 一 个 默认 的 用 户 代理 ‘wswp”( 即 
Web Scraping with Python 的 首 字母 缩写 )。 
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def download(url, user agent-'wswp', num retries-2): 
print('Downloading:', url) 
request - urllib.request.Request (url) 
request.add header('User-agent', user agent) 





try: 
html = urllib.request.urlopen(request).read() 
except (URLError, HTTPError, ContentTooShortError) as e: 











print('Download error:', e.reason) 
html = None 


if num retries > O0: 





if hasattr(e, 'code') and 500 <= e.code < 600: 
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# recursively retry 5xx HTTP errors 
return download(url, num retries - 1) 
return html 


现在 , 如 果 你 再 次 尝试 访问 meetup .com, 就 能 够 看 到 一 个 合法 的 HTML 
了 。 我 们 的 下 载 函 数 可 以 在 后 续 代 码 中 得 到 复 用 ， 该 函数 能 够 捕获 异常 、 在 
可 能 的 情况 下 重 试 网 站 以 及 设置 用 户 代理 。 


1.5.3 ”网 站 地 图 爬虫 


在 第 一 个 简单 的 爬虫 中 ， 我 们 将 使 用 示例 网 站 robots.txt 文件 中 发 现 
的 网 站 地 图 来 下 载 所 有 网 页 。 为 了 解析 网 站 地 图 ， 我 们 将 会 使 用 一 个 简单 的 
正则 表达 式 ， 从 <loc> 标 签 中 提取 出 URL. 

我 们 需要 更 新 代码 以 处 理 编码 转换 ， 因 为 我 们 目前 的 download 函数 只 
是 简单 地 返回 了 字 节 。 而 在 下 一 章 中 ， 我 们 将 会 介绍 一 种 更 加 稳健 的 解析 方 
法 一 一 CSS 选择 器 ， 下 面 是 该 示例 怜 虫 的 代码 。 
































import re 


def download(url, user agent-'wswp', num retries-2, charset-'utf-8'): 
print('Downloading:', url) 
request - urllib.request.Request (url) 





request.add header('User-agent', user agent) 
Levi 
resp = urllib.request.urlopen (request) 
cs = resp.headers.get content charset() 





if not cs: 
cs = charset 
html = resp.read().decode(cs) 
except (URLError, HTTPError, ContentTooShortError) as e: 











print('Download error:', e.reason) 

html - None 

if num retries > O0: 
if hasattr(e, 'code') and 500 <= e.code < 600: 
f recursively retry 5xx HTTP errors 





return download(url, num retries - 1) 
return html 


一 15 j 
异步 社区 会 员 sergeant(15779577768) 专 享 尊重 版 权 








def crawl sitemap (url): 


# download the sitemap file 


sitemap = download (url) 


# extract the sitemap links 
links = re.findall('«loc»(.*?)«/loc»', sitemap) 
# download each link 


for link 
html 


in links: 
= download(link) 


# scrape html here 


8$... 





现在 ， 运 行 网 站 地 图 


>>> crawl sitemap('http 


Downloading: 
Downloading: 
Downloading: 
Downloading: 











ER, ARH rp FR A E K EROR EXC ULTRI 





http://example.python-scraping.com/sitemap.xml 

http: //example.python-scraping.com/view/Afghanistan-1 
http: //example.python-scraping.com/view/Aland-Islands-2 
http: //example.python-scraping.com/view/Albania-3 





://example.python-scraping.com/sitemap.xml') 


正如 上 面 代码 中 的 download 方法 所 示 , 我 们 必须 更 新 字符 编码 才能 利用 

















正则 表达 式 处 理 网 站 响应 。Python 的 read 方法 返回 字 节 ， 而 正则 表达 式 期 望 
的 则 是 字符 串 。 我 们 的 代码 依赖 于 网 站 维护 者 在 响应 头 中 包含 适当 的 字符 编 














码 。 如 果 没 有 返回 字符 编码 头 部 ， 我 们 将 会 把 它 设置 为 默认 值 UTF-8， 并 抱 有 




















最 大 的 希望 。 当 然 ， 如 果 返 回头 中 的 编码 不 正确 ， 或 是 编码 没有 设置 并 且 也 不 
是 UTF-8 的 话 ， 则 会 抛 出 错误 。 还 有 一 些 更 复杂 的 方式 用 于 猜测 编码 〈 参 见 
httpbps://pypi.python.org/pypi/chardet)， 该 方法 非常 容易 实现 。 


到 目前 为 止 ， 

















网 站 地 图 爬虫 已 经 符合 预期 。 不 过 正如 前 文 所 述 ， 我 们 无 法 


























依靠 Sitemap 文件 提供 每 个 网 页 的 链接 。 下 一 节 中 , 我 们 将 会 介绍 另 一 个 简 
单 的 聆 虫 ， 该 谎 虫 不 再 依赖 于 Sitemap 文件 。 


qp 如 果 你 在 任何 时 候 不 想 再 多 





Python 解释 器 或 执行 的 程序 。 
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1.5.4 ID 3 P5 ITE Fh 


本 节 中 ， 我 们 将 利用 网 站 结构 的 弱点 ， 更 加 轻松 地 访问 所 有 内 容 。 下 面 是 
一 些 示例 国家 《或 地 区 ) 的 URL. 











€ nhttp://example.python-scraping.com/view/Afghanistan-1 





€ nttp://example.python-scraping.com/view/Australia-2 
€ nttp://example.python-scraping.com/view/Brazil-3 


uf UAH, ix URL 只 在 URL 路 径 的 最 后 一 部 分 有 所 区 别 , 包 括 国家 (或 
地 区 ) 名 (作为 页 面 别 名 ) 和 ID。 Æ URL 中 包含 页 面 别名 是 非常 普遍 的 做 法 ， 
可 以 对 搜索 引擎 优化 起 到 帮助 作用 。 一 般 情 况 下 ，Web 服务 器 会 忽略 这 个 字 
符 串 ， 只 使 用 ID 来 匹配 数据 库 中 的 相关 记录 。 下 面 我 们 将 其 移 除 ， 查 看 
http://example.python-scraping.com/view/1, 测试 示例 网 站 中 的 
链接 是 否 仍然 可 用 。 测 试 结果 如 图 1.1 所 示 。 

















Example web scraping website 


Flag: 


Area: 647,500 square kilometres 
Population: 29,121,286 

Iso: AF 

Country (District): ^ Afghanistan 

Capital: Kabul 

Continent: AS 

Tid: .af 


Currency Code: AFN 

Currency Name: Afghani 

Phone: 93 

Postal Code Format: 

Postal Code Regex: 

Languages: fa-AF,ps,uz-AF,tk 
Neighbours: TM CN IR TJ PK UZ 


Edit 














D 
— 
2 
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络 仆 虫 简介 

















从 图 1.1 中 可 以 看 出 , 网 页 依然 可 以 加 载 成 功 , 也 就 是 说 该 方法 是 有 用 的 。 
现在 , 我 们 就 可 以 忽略 页 面 别名 , 只 利用 数据 库 YD 来 下 载 所 有 国家 (或 地 区 ) 
的 页 面 了 。 下 面 是 使 用 了 该 技巧 的 代码 片段 。 














import itertools 


def crawl site(url): 
for page in itertools.count(1): 
pg url = '{}{}'.format (url, page) 
html = download(pg url) 
if html is None: 
break 
# success - can scrape the result 


现在 ， 我 们 可 以 使 用 该 函数 传 入 基础 URL 





>>> crawl site('http://example.python-scraping.com/view/-') 
Downloading: http://example.python-scraping.com/view/-1 
Downloading: http://example.python-scraping.com/view/-2 
Downloading: http://example.python-scraping.com/view/-3 
Downloading: http://example.python-scraping.com/view/-4 
[52] 


在 这 段 代 码 中 ， 我 们 对 ID 进行 遍历 ， 直 到 出 现下 载 错 误 时 停止 ,我 们 假 
设 此 时 抓 取 已 到 达 最 后 一 个 国家 《或 地 区 ) 的 页 面 。 不 过 ， 这 种 实现 方式 存 
在 一 个 缺陷， 那 就 是 某 些 记录 可 能 已 被 删除 ， 数 据 库 ID 之 间 并 不 是 连续 的 。 
此 时 ， 只 要 访问 到 茶 个 间隔 点 ， 怜 虫 就 会 立即 退出 。 下 面 是 这 段 代 码 的 改进 
版 本 ， 在 该 版 本 中 连续 发 生 多 次 下 载 错误 后 才 会 退出 程序 。 























def crawl site(url, max errors-5): 
for page in itertools.count(1): 
pg url = '{}{}'.format (url, page) 
html = download(pg url) 
if html is None: 


num errors += 1 





if num errors -- max errors: 
# max errors reached, exit loop 
break 
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else: 
num errors = 0 


# success - can scrape the result 

上 面 代码 中 实现 的 爬虫 需要 连续 5 次 下 载 错 误 才 会 停止 遍历 , 这 样 就 很 大 
程度 上 降低 了 过 到 记录 被 删除 或 隐藏 时 过 早 停止 遍历 的 风险 。 

在 仆 取 网 站 时 , 遍历 ID 是 一 个 很 便捷 的 方法 , 但 是 和 网 站 地 图 爬虫 一 样 ， 
这 种 方法 也 无 法 保证 始终 可 用 。 比 如 ， 一 些 网 站 会 检查 页 面 别 名 是 否 在 URL 
中 ， 如 果 不 是 ， 则 会 返回 404 Not Found 错误 。 而 另 一 些 网 站 则 会 使 用 非 
连续 大 数 作为 ID， 或 是 不 使 用 数值 作为 ID， 此 时 遍历 就 难以 发 挥 其 作用 了 。 
例如 ，Amazon 使 用 ISBN 作为 可 用 图 书 的 ID, 这 种 编码 包含 至 少 10 位 数字 。 
使 用 ID 对 ISBN 进行 遍历 需要 测试 数 十 亿 次 可 能 的 组 合 ， 因 此 这 种 方法 肯定 
不 是 抓 取 该 站 内 容 最 高 效 的 方法 。 

正如 你 一 直 关 注 的 那样 ， 你 可 能 已 经 注意 到 一 些 TOO MANY REQUESTS 
下 载 错误 信息 。 现 在 无 须 担心 它 ， 我 们 将 会 在 1.5.5 节 的 “高 级 功能 ”部 分 中 
介绍 更 多 处 理 该 类 型 错误 的 方法 。 


1.5.5 EHR 


到 目前 为 止 , S40] CL ERR zs PU Ie s FI ZR ex SICH, T PI f] ERG IR. 用 
于 下 载 所 有 已 发 布 的 国家 【或 地 区 ) 页 面 。 只 要 这 两 种 技术 可 用 ， 就 应 当 使 
用 它们 进行 朴 取 ， 因 为 这 两 种 方法 将 需要 下 载 的 网 页 数量 降 至 最 低 。 不 过 ， 
对 于 另 一 些 网 站 ， 我 们 需要 让 疏 虫 表现 得 更 像 普通 用 户 ， 跟 踪 链 接 ， 访 问 感 
兴趣 的 内 容 。 

通过 跟踪 每 个 链接 的 方式 ,我 们 可 以 很 容易 地 下 载 整个 网 站 的 页 面 。 但 是 ， 
这 种 方法 可 能 会 下 载 很 多 并 不 需要 的 网 页 。 例 如 ， 我 们 想 要 从 一 个 在 线 论 坛 
中 抓 取 用 户 账 号 详情 页 ， 那 么 此 时 我 们 只 需要 下 载 账号 页 ， 而 不 需要 下 载 讨 
论 贴 的 页 面 。 本 章 使 用 的 链接 爬虫 将 使 用 正则 表达 式 来 确定 应 当下 载 哪些 页 
面 。 下 面 是 这 段 代 码 的 初始 版 本 。 
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import re 


def link crawler(start url, link regex): 
""" Crawl from the given start URL following links matched by 
link regex 
"nn 
crawl queue - [start url] 
while crawl queue: 
url = crawl queue.pop() 
html = download(url) 
if html is not None: 
continue 
# filter for links matching our regular expression 
for link in get links (html): 
if re.match(link regex, link): 
crawl queue.append(link) 


def get links (html): 
""" Return a list of links from html 
"nnm 
f a regular expression to extract all links from the webpage 
webpage regex = re.compile("""«a[^»]*href-["'] (.*?2) ["']""", 
re.IGNORECASE) 
# list of all links from the webpage 

















return webpage regex.findall (html) 
要 运行 这 段 代 码 ， 只 需要 调用 link _ crawler 函数 ， 并 传 入 两 个 参数 : 
HEREA URL 以 及 用 于 匹配 你 想 跟 踊 的 链接 的 正则 表达 式 。 对 于 示例 网 
站 来 说 ,我们 想 要 有 息 取 的 是 国家 (或 地 区 ) 列表 索引 页 和 国家 《或 地 区 ) 页 面 。 
我 们 查看 站 点 可 以 得 知 索引 页 链接 遵循 如 下 格式 : 


€ hnttp://example.python-scraping.com/index/1 























EE 























€ http://example.python-scraping.com/index/2 
国家 (或 地 区 ) 页 遵循 如 下 格式 : 


€ nttp://example.python-scraping.com/view/Afghanistan-1 














€ nhttp://example.python-scraping.com/view/Aland-Islands-2 
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因此 ， 我 们 可 以 用 / (3ndex | view) /这 个 简单 的 正则 表达 式 来 匹配 这 两 
类 网 页 。 当 不 虫 使 用 这 些 输入 参数 运行 时 会 发 生 什么 呢 ? 你 会 得 到 如 下 所 示 
的 下 载 错 误 。 

>>> link crawler('http://example.python-scraping.com', '/(index|view)/') 

Downloading: http://example.python-scraping.com 


Downloading: /index/1 
Traceback (most recent call last): 


ValueError: unknown url type: /index/1 
正则 表达 式 是 从 字符 串 中 抽取 信息 的 非常 好 的 工具 ， 因 此 我 推荐 每 名 程序 
Qo 员 都 应 当 “ 学 会 如 何 阅读 和 编写 一 些 正则 表达 式 ”。 即 便 如 此 ， 它 们 往往 会 
非常 脆弱 ， 容 易 失效 。 我 们 将 在 本 书后 续 部 分 介绍 更 先进 的 抽取 链接 和 识 
别 页 面 的 方式 。 


可 以 看 出 ， 问 题 出 在 下 载 /ijndex/1 时 ， 该 链接 只 有 网 页 的 路 径 部 分 ， 
而 没有 协议 和 服务 器 部 分 ， 也 就 是 说 这 是 一 个 相对 链接 。 由 于 浏览 器 知道 你 
正在 浏览 哪个 网 页 ， 并 且 能 够 采取 必要 的 步骤 处 理 这 些 链接 ， 因 此 在 浏览 
浏览 时 ， 相 对 链接 是 能 够 正常 工作 的 。 但 是 ，ur1llib 并 没有 上 下 文 。 为 了 
让 urllib 能 够 定位 网 页 ， 我 们 需要 将 链接 转换 为 绝对 链接 的 形式 ， 以 便 包 
含 定位 网 页 的 所 有 细节 。 如 你 所 愿 ，Python 的 urllib 中 有 一 个 模块 可 以 用 
来 实现 该 功能 ， 该 模块 名 为 上 ass， 下 面 是 link crawler 的 改进 版 本 ， 
使 用 了 urljoin 方法 来 创建 绝对 路 径 。 



































from urllib.parse import urljoin 


def link crawler(start url, link regex): 
""" Crawl from the given start URL following links matched by 
link regex 
"nn 
crawl queue - [start url] 
while crawl queue: 
url = crawl queue.pop() 
html = download(url) 
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if not html: 
continue 
for link in get links (html): 
if re.match(link regex, link): 
abs link - urljoin(start url, link) 
crawl queue.append(abs link) 


当 你 运行 这 段 代 码 时 ， 会 看 到 虽然 下 载 了 匹配 的 网 页 ， 但 是 同样 的 地 点 总 
是 会 被 不 断 下 载 到 。 产 生 该 行为 的 原因 是 这 些 地 点 相互 之 间 存 在 链接 。 比 如 ， 
澳大利亚 链接 到 了 南极 洲 ， 而 南极 洲 又 链接 回 了 澳大利亚 ， 此 时 疏 虫 就 会 继续 
将 这 些 URL 放 入 队列 ， 永 远 不 会 到 达 队 列 尾 部 。 要 想 避 免 重复 爬 取 相同 的 链 
接 ， 我 们 需要 记录 哪些 链接 已 经 被 爬 取 过 。 下 面 是 修改 后 的 link crawler 
函数 ， 有 具备 了 存储 已 发 现 URL 的 功能 ， 可 以 避免 重复 下 载 。 






































def link crawler(start url, link regex): 
crawl queue - [start url] 
f keep track which URL's have seen before 
seen = set(crawl queue) 
while crawl queue: 
url = crawl queue.pop() 
html = download(url) 
if not html: 
continue 
for link in get links (html): 
# check if link matches expected regex 





if re.match(link regex, link): 
abs link - urljoin(start url, link) 








# check if have already seen this link 
if abs link not in seen: 

seen.add(abs link) 

crawl queue.append(abs link) 


当 运 行 该 脚本 时 ， 它 会 息 取 所 有 地 点 ， 并 且 能 够 如 期 停止 。 最终， 我 们 得 
到 了 一 个 可 用 的 链接 息 虫 ! 








高 级 功能 


现在 , 让 我 们 为 链接 爬虫 添加 一 些 功 能 , 使 其 在 爬 取 其 他 网 站 时 更 加 有 用 。 
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1. 解析 robots.txt 

首先 ， 我 们 需要 解析 robots.txt XF, DES FRZ EERI URL. 
使 用 Python 的 urllib 库 中 的 robotparser 模块 , 就 可 以 轻松 完成 这 项 工 
作 ， 如 下 面 的 代码 所 示 。 





>>> from urllib import robotparser 
>>> rp = robotparser .RobotFileParser () 
>>> rp.set url('http://example.python-scraping.com/robots.txt') 
>>> rp.read() 
>>> url = 'http://example.python-scraping.com' 
>>> user agent = 'BadCrawler' 
>>> rp.can fetch(user agent, url) 
False 
>>> user agent = 'GoodCrawler' 
>>> rp.can fetch(user agent, url) 
True 


robotparser 模块 首先 加 载 robots.txt 文件 ， 然 后 通过 
can fetch () 函数 确定 指定 的 用 户 代理 是 否 允许 访问 网 页 。 在 本 例 中 ， 当 用 
户 代理 设置 为 'BadCrawler' 时 ，robotparser 模块 的 返回 结果 表明 无 法 
获取 网 页 ， 正 如 我 们 在 示例 网 站 的 robots.txt 文件 中 看 到 的 定义 一 样 。 

为 了 将 robotparser 集成 到 链接 爬虫 中 ， 我 们 首先 需要 创建 一 个 新 函 
数 用 于 返回 robotparser 对 象 。 













































































def get robots parser(robots url): 
" Return the robots parser object using the robots url " 
rp = robotparser.RobotFileParser() 
rp.set url(robots url) 
rp.read() 


return rp 


我 们 需要 可 靠 地 设置 robots_url， 此 时 我 们 可 以 通过 向 函数 传递 额外 
的 关键 词 参 数 的 方法 实现 这 一 目标 。 我 们 还 可 以 设置 一 个 默认 值 ， 防 止 用 户 
没有 传递 该 变量 。 假 设 从 网 站 根 目 录 开 始 爬 到， 那么 我 们 可 以 简单 地 将 
robots.txt 添加 到 URL 的 结尾 处 。 此 外 ,我 们 还 需要 定义 user_agent。 
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def link crawler(start url, link regex, robots url-None, 


user agent-'wswp'): 


if not robots url: 
robots url = '()/robots.txt'.format(start url) 
rp = get robots parser(robots url) 


最 后 ， 我 们 在 crawl 循环 中 添加 解析 器 检查 。 


while crawl queue: 
url = crawl queue.pop() 
# check url passes robots.txt restrictions 
if rp.can fetch(user agent, url): 





html = download(url, user agent-user agent) 


else: 
print('Blocked by robots.txt:', url) 


RATE EEH I ISI FP FORSE] E o o Be fI 1320] e BERE R D. 

















及 robotparser 的 使 用 。 


>>> link crawler('http://example.python-scraping.com', '/(index|view)/', 
user agent-'BadCrawler') 
Blocked by robots.txt: http://example.python-scraping.com 


2. 支持 代理 
有 时 我 们 需要 使 用 代理 访问 某 个 网 站 。 比 如 ，Hulu 在 美国 以 外 的 很 多 国 






































家 被 屏蔽 ，YouTube 上 的 一 些 视 频 也 是 。 使 用 ur11ib 支持 代理 并 没有 想象 中 
那么 容易 。 我 们 将 在 后 面 的 小 节 介 绍 一 个 对 用 户 更 友好 的 Python HTTP 模块 一 


一 requests， 该 模块 同样 也 能 够 处 理 代 理 。 下 面 是 使 用 urllib 支持 代理 
























































的 代码 。 


proxy = 'http://myproxy.net:1234' 4 example string 

proxy support = urllib.request.ProxyHandler(('http': proxy]) 
opener = urllib.request.build opener(proxy support) 
urllib.request.install opener(opener) 


4 24 qp 
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1.5 编写 第 一 个 网 络 仆 中 


# now requests via urllib.request will be handled via proxy 
下 面 是 集成 了 该 功能 的 新 版 本 download 函数 。 


def download(url, user agent-'wswp', num retries-2, charset-'utf-8', 
proxy-None): 

print('Downloading:', url) 

request - urllib.request.Request (url) 





request.add header('User-agent', user agent) 
try: 
if proxy: 
proxy support = urllib.request.ProxyHandler(('http': proxy]) 
opener - urllib.request.build opener(proxy support) 
urllib.request.install opener (opener) 
resp = urllib.request.urlopen (request) 





cs = resp.headers.get content charset() 
if not cs: 
cs = charset 
html = resp.read().decode(cs) 
except (URLError, HTTPError, ContentTooShortError) as e: 











print('Download error:', e.reason) 

html - None 

if num retries » O0: 
if hasattr(e, 'code') and 500 <= e.code < 600: 
f recursively retry 5xx HTTP errors 





return download(url, num retries - 1) 
return html 


目前 在 默认 情况 下 (Python 3.55, urllib 模块 不 支持 https 代理 。 该 
问题 可 能 会 在 Python 未 来 的 版 本 中 发 现 变化 , 因此 请 查阅 最 新 的 文档 。 此 外 ， 
你 还 可 以 使 用 文档 推荐 的 诀窍 Chttps://code.activestate.com/ 
recipes/456195)， 或 继续 阅读 来 学 习 如 何 使 用 requests 库 。 


3. 下 载 限 速 

如 果 我 们 息 取 网 站 的 速度 过 快 , 就 会 面临 被 封禁 或 是 造成 服务 器 过 载 的 风 
险 。 为 了 降低 这 些 风险 ， 我 们 可 以 在 两 次 下 载 之 间 添 加 一 组 延 时 ， 从 而 对 扑 
虫 限 速 。 下 面 是 实现 了 该 功能 的 类 的 代码 。 
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第 1 章 WEB 


from urllib.parse import urlparse 


import time 


class Throttle: 


def 


"""Add a delay between downloads to the same domain 
"nun 

def | init (self, delay): 

# amount of delay between downloads for each domain 
self.delay = delay 

f timestamp of when a domain was last accessed 





self.domains = {} 
wait(self, url): 
domain = urlparse(url).netloc 


last accessed - self.domains.get (domain) 


if self.delay » 0 and last accessed is not None: 





sleep secs - self.delay - (time.time() - last accessed) 
if sleep secs > O0: 





# domain has been accessed recently 
# so need to sleep 





time.sleep(sleep secs) 
# update the last accessed time 
self.domains[domain] = time.time() 


Throttle 类 记录 了 每 个 域名 上 次 访问 的 时 间 ， 如 果 当 前 时 间距 离 上 次 
访问 时 间 小 于 指定 延 时 ， 则 执行 睡眠 操作 。 我 们 可 以 在 每 次 下 载 之 前 调用 
throttle XE d UtíT DRE. 











throttle = Throttle (delay) 


throttle.wait(url) 


html 











- download(url, user agent-user agent, num retries-num retries, 


proxy-proxy, charset-charset) 


4. Xife Er pap 


目前 ， 我 们 的 爬虫 会 跟踪 所 有 之 前 没有 访问 过 的 链接 。 但 是 ,一 些 网 站 会 
动态 生成 页 面 内 容 ， 这 样 就 会 出 现 无 限 多 的 网 页 。 比 如 ， 网 站 有 一 个 在 线 日 
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1.5 ”编写 第 一 个 网 络 仆 虫 




















历 功能 ， 提 供 了 可 以 访问 下 个 月 和 下 一 年 的 链接 ， 那 么 下 个 月 的 页 面 中 同样 
会 包含 访问 再 下 个 月 的 链接 ， 这 样 就 会 一 直 持 续 请 求 到 部 件 设 定 的 最 大 时 间 
《可 能 会 是 很 久之 后 的 时 间 )。 该 站 点 可 能 还 会 在 简单 的 分 页 导航 中 提供 相同 
的 功能 ， 本 质 上 是 分 页 请 求 不 断 访问 空 的 搜索 结果 页 ， 直 至 达到 最 大 页 数 。 
这 种 情况 被 称 为 仆 虫 陷阱 。 

想 要 避免 陷入 疏 虫 陷阱 , 一 个 简单 的 方法 是 记录 到 达 当 前 网 页 经 过 了 多 少 
个 链接 ， 也 就 是 深度 。 当 到 达 最 大 深度 时 ， 扑 虫 就 不 再 向 队列 中 添加 该 网 页 
中 的 链接 了 。 要 实现 最 大 深度 的 功能 ， 我 们 需要 修改 seen 变量 。 该 变量 原 
先 只 记录 访问 过 的 网 页 链接 ， 现 在 修改 为 一 个 字典 ， 增 加 了 已 发 现 链接 的 深 
度 记录 。 




































































def link crawler(..., max depth-4): 
seen = (] 


if rp.can fetch(user agent, url): 
depth = seen.get(url, 0) 
if depth -- max depth: 
print('Skipping $s due to depth' $ url) 
continue 








for link in get links (html): 
if re.match(link regex, link): 
abs link - urljoin(start url, link) 
if abs link not in seen: 
seen[abs link] = depth + 1 
crawl queue.append(abs link) 


有 了 该 功能 之 后 , RIRA eT HR Ec — XE fe Ub e X, Y. UI AREE 
ri 




















该 功能 ， 只 需 将 max_depth 设 为 一 个 负数 即 可 ， 此 时 当前 深度 永远 不 会 与 
之 相等 。 
5. 最 终 版 本 








这 个 高 级 链接 爬虫 的 完整 源 代码 可 以 在 异步 社区 中 下 载 得 到 , 其 文件 名 为 
advanced link crawler.py。 为 了 方便 按照 本 书 操作 ， 可 以 派生 该 代码 
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库 ， 并 使 用 它 对 比 及 测试 你 自己 的 代码 。 





PU UEH, MER 


BINAE RER, RITI DAYS HI PIRE 
本 章 前 文 所 述 的 被 robots .txt 屏蔽 了 的 那个 用 户 代 理 。 从 下 面 的 运 
实 被 屏蔽 了 ， 代 码 启动 后 马上 就 会 结束 。 














>>> start url 


>>> link regex 




















' / (index|view)' 


置 为 BadCrawler, 


TAR 


























'http://example.python-scraping.com/index' 


>>> link crawler(start url, link regex, user_agent='BadCrawler') 
Blocked by robots.txt: http://example.python-scraping.com/ 


现在 ， 
页 上 的 链接 才 























让 我 们 使 用 默认 的 用 户 代理 ， 并 将 最 大 深度 设置 为 1， 这 样 只 有 主 


会 被 下 载 。 








>>> link crawler(start url, link regex, max depth-1) 


Downloading: 


Downloading: 


Downloading: 


Downloading: 


Downloading: 


Downloading: 


Downloading: 


Downloading: 


Downloading: 


Downloading: 


Downloading: 


Downloading: 


TTT 


~ 


—R 





http: 
http: 
http: 
http: 
http: 
http: 
http: 
http: 
http: 
http: 
http: 
http: 


ERE FREEK EK) 列表 的 第 


//example.python-scraping. 
//example.python-scraping. 


com//index 
com/index/1 


//example.python-scraping.com/view/Antigua-and-Barbuda-10 


//example. 
//example. 
//example. 
//example. 
//example. 
//example. 
//example. 
//example. 
//example. 








1.5.6 ”使 用 requests 库 
尽管 我 们 只 使 用 urllib 就 已 经 实现 了 一 个 相对 高 级 的 解析 器 ， 不 过 目 





前 Python 编写 的 主流 爬虫 一 般 都 会 使 用 requests 库 来 
求 。 该 项 目 起 初 只 是 以 “人 类 可 


python-scraping. 
python-scraping. 
python-scraping. 
python-scraping. 
python-scraping. 
python-scraping. 
python-scraping. 
python-scraping. 
python-scraping. 


com/view/Antarctica-9 
com/view/Anguilla-8 
com/view/Angola-7 
com/view/Andorra-6 
com/view/American-Samoa-5 
com/view/Algeria-4 
com/view/Albania-3 
com/view/Aland-Islands-2 
com/view/Afghanistan-1 


XU JFE T o 


























CE 





里 复杂 的 HTTP 请 














读 ” 的 方式 协助 封装 urllib 功能 的 小 库 ， 





不 过 现 如 今 已 经 发 展 成 为 拥有 数 百 名 贡献 者 的 庞大 项 目 。 可 用 的 一 些 功 能 包 
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\ 对 SSL 和 安全 的 重要 更 新 以 及 对 POST 请 求 JSON cookie 
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15 编写 第 一 个 网 络 仆 中 











和 代理 的 简单 处 理 











o 


本 书 在 大 部 分 情况 下 ， 都 将 使 用 requests 库 ， 因 为 它 足 够 简单 并 且 易 于 
使 用 ， 而 且 它 事实 上 也 是 大 多 数 网 络 爬 虫 项 目的 标准 。 





想 要 安装 requests， 只 需 使 用 pip 即 可 。 


pip install requests 


如 果 你 想 了 解 其 所 有 功能 的 进一步 介绍 ， 可 以 阅读 它 的 文档 ， 地 址 为 
http://python-requests.org， 此 外 也 可 以 浏览 其 源 代码 ， 地 址 为 
https://github.com/kennethreitz/requests. 

为 了 对 比 使 用 这 两 种 库 的 区 别 ， 我 还 创建 了 一 个 使 用 requests 的 高 级 
链接 爬虫 。 你 可 以 在 从 异步 社区 中 下 载 的 源码 文件 中 找到 并 碍 看 该 代码 ， 其 
文件 名 为 advanced link crawler using _ requests.py。 在 主要 的 
download 函数 中 ， 展 示 了 其 关键 区 别 。redquests 版 本 如 下 所 示 。 






































def download(url, user agent-'wswp', num retries-2, proxies-None): 
print('Downloading:', url) 
headers = ('User-Agent': user agent] 





try: 





resp = requests.get(url, headers-headers, proxies-proxies) 
html = resp.text 
if resp.status code »- 400: 
print('Download error:', resp.text) 
html - None 
if num retries and 500 «- resp.status code « 600: 
f recursively retry 5xx HTTP errors 


return download(url, num retries - 1) 








xcept requests.exceptions.RequestException as e: 
print('Download error:', e.reason) 
html = None 











一 个 值得 注意 的 区 别 是 ，status_code 的 使 用 更 加 方便 ， 因 为 每 个 请 求 
中 都 包含 该 属性 。 另 外 ， 我 们 不 再 需要 测试 字符 编码 了 ， 因 为 Response 对 
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象 的 text 属性 已 经 为 我 们 自动 化 实现 了 该 功能 。 对 于 无 法 处 理 的 URL 或 超 
时 等 罕见 情况 ， 都 可 以 使 用 RequestException 进行 处 理 ， 只 需 一 句 简单 
的 捕获 异常 的 语句 即 可 。 代 理 处 理 也 已 经 被 考虑 进来 了 ， 我 们 只 需 传递 代理 
的 字典 即 可 ( 即 {'http': 'http://myproxy.net:1234', 'https': 
'https://myproxy.net:1234'}). 


我 们 将 继续 对 比 和 使 用 这 两 个 库 ， 以 便 根据 你 的 需求 和 用 例 来 熟悉 它们 。 
无 论 你 是 在 处 理 更 复杂 的 网 站 ， 还 是 需要 处 理 重 要 的 人 类 化 方法 (如 cookie 
或 session) 时， 我 都 强烈 推荐 使 用 requests。 我 们 将 会 在 第 6 章 中 讨论 更 
多 有 关 这 些 方法 的 话题 。 





























































































































1.6 ”本 章 小 结 


本 章 介 绍 了 网 络 息 虫 ， 然 后 给 出 了 一 个 能 够 在 后 续 章节 中 复 用 的 成 熟 仆 
虫 。 此 外 ， 我 们 还 介绍 了 一 些 外 部 工具 和 模块 的 使 用 方法 ， 用 于 了 解 网 站 、 
用 户 代理 、 网 站 地 图 、 疏 取 延 时 以 及 各 种 高 级 伶 取 技术 。 


下 一 章 中 ， 我 们 将 讨论 如 何 从 已 息 取 到 的 网 页 中 获取 数据 。 
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第 2 章 
数据 抓 取 





在 上 一 章 中 , 我 们 构建 了 一 个 怜 虫 , 可 以 通过 跟踪 链接 的 方式 下 载 所 需 的 
网 页 。 虽 然 这 个 例子 很 有 意思 ， 却 不 够 实用 ， 因 为 爬虫 在 下 载 网 页 之 后 又 将 
结果 丢弃 掉 了 。 现 在 ， 我 们 需要 让 这 个 爬虫 从 每 个 网 页 中 抽取 一 些 数据 ， 然 
后 实现 某 些 事 情 ， 这 种 做 法 也 称 为 抓 取 (scraping ). 


首先 ， 我 们 会 介绍 一 些 浏览 器 工具 ， 用 于 查看 网 页 内 容 ， 如 果 你 有 一 些 
Web 开发 背景 的 话 ， 可 能 已 经 对 这 些 工具 十 分 熟悉 了 。 然 后 ， 我 们 会 介绍 3 
种 抽取 网 页 数据 的 方法 ， 分 别 是 正则 表达 式 、Beautiful Soup 和 lxml。 最 后 ， 
我 们 将 对 比 这 3 种 数据 抓 取 方法 。 

在 本 章 中 ， 我 们 将 介绍 如 下 主题 : 
分 析 网 页 ; 

抓 取 网 页 的 方法 ; 
使 用 控制 台 ; 
xpath 选择 器 ; 
抓 取 结果 。 
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第 2 章 数据 抓 取 


2.1 分 析 网 页 








想 要 理解 一 个 网 页 的 结构 如 何 , 可 以 使 用 查看 源 代码 的 方法 。 在 大 多 数 浏 
览 嚣 中， 都 可 以 在 页 面 上 右键 单 击 选择 View page source 选项 ， 获 取 网 页 的 
源 代码 ， 如 图 2.1 所 示 。 





Flag: ~ he] 
ll 
Area: 244,820 square kilometres 
Population: 62,348,447 
Iso: GB 
Country (District): United Kingd — 8*** 
Capital: London 
Continent: EU Reload 
Tid: .Uk 
Currency Code: GBP — 
Currency Name: Pound eni... 
Phone: 44 Translate to English 
Postal Code Format: @# «oo View pagesouce p 
#@@|@#@ View page info 


Postal Code Regex:  ^(([A-ZJ\d{2}| 
{2)d{2)A-Z] d* Inspect with Firebug Lite 


Z]\d[A-Z]j\d[A 

(GIROAA)S, © JSONView R 
Languages: en-GB.cy-Gl & User-Agent Switcher " 
Neighbours: IE 


Inspect element 
Edit 











图 2.1 











对 于 我 们 的 示例 网 站 来 说 ， 我 们 感 兴 趣 的 数据 是 在 国家 (或 地 区 〉 页 面 中 。 
让 我 们 来 查看 一 下 页 面 源 代码 (通过 浏览 占 菜 单 或 右键 单 击 浏览 器 菜单 )。 在 英国 
的 示例 页 面 Chttp://example.python-scraping.com/view/United- 
Kingdom-239) 的 源 代码 中 ， 你 可 以 找到 一 个 包含 国家 或 地 区 ) 数据 的 表 
格 〈( 可 以 在 页 面 源 代码 中 通过 搜索 来 找到 它 )。 





OC 
异步 社区 会 员 sergeant(15779577768) 专 享 尊重 版 权 








E 
pies 


24. 分 析 网 页 


table> 
tr id-"places flag row"><td class-"w2p fl"><label 
or-"places flag" id-"places flag  label"» 


lag:«/label»«/td» 
td class-"w2p fw"»«img src-"/places/static/images/flags/gb.png" /»«/td»«td 
lass-"w2p fc"»«/td»«/tr» 


Q A Hj Fh ^ ^ 





«tr id-"places neighbours  row"»«td class-"w2p fl"»«label 
for-"places neighbours" id-"places neighbours  label"»Neighbours: 
«/label»«/td»«td class="w2p fw"»«div»«a hrefz"/iso/IE"»IE 
«/a»«/div»«/td»«td class-"w2p fc"»«/td»«/tr»«/table» 


对 于 浏览 器 解析 而 言 , 缺失 空白 符 和 格式 并 无 大 碍 , 但 在 我 们 阅读 时 却 会 



































i 一定 困难 。 想 要 更 好 地 理解 该 表格 ， i a 工具 。 要 想 找 

















到 你 正在 使 用 的 浏览 器 中 的 开发 者 工具 ， 通 常情 况 下 只 需 右 键 单 击 并 选择 类 
似 Developer Tools 的 选项 。 根 据 你 所 使 用 的 浏览 器 不 同 ， 可 能 会 有 不 同 的 开 
发 者 工具 选项 ， 不 过 几乎 每 个 浏览 器 都 有 一 个 名 为 Elements 或 HTML 的 选 
项 卡 。 在 Chrome 和 Firefox 中 ， 只 需 右键 单 击 页 面 上 的 某 个 元 素 〈 你 在 抓 取 
时 感 兴 趣 的 元 素 )， ue Inspect Element。 而 在 IE 中 ， 则 需要 通过 按 下 
F12 键 打开 Developer 工具 栏 ， 然 后 通过 按 下 Ctrl + B 选择 项 目 。 如 果 你 使 用 的 
是 没有 内 置 开 发 者 工具 的 其 m—T—" 可 能 需要 尝试 安装 Firebug Lite 扩展 ， 该 
扩展 对 于 大 多 数 浏览 器 均 可 以 使 用 ， 读者 可 自行 搜索 并 下 载 安装 该 扩展 。 





















































HRE Chrome 中 右键 单 击 页 面 中 的 表格 ， 并 点 击 Inspect Elements 时 ， 














可 以 看 到 下 面 打 开 了 一 个 面板 ， 其 中 包含 了 选 定 元 素 的 HTML 层次 结构 ， 如 





图 





2.2 所 示 。 











在 图 2.2 中 ， 我 们 可 以 看 到 cable 元 素 位 于 一 个 form 元 素 中 。 我 们 还 





可 以 看 到 国家 《或 地 区 ) 属性 包含 在 带 有 不 同 CSS ID 的 tr*〈 即 表格 的 行 ) 
元 素 中 (显示 为 id="places flag row")。 由 于 浏览 器 的 不 同 ， 颜 色 或 
样式 可 能 会 有 所 区 别 ， 不 过 你 应 该 都 可 以 点 击 元 素 ， 通 过 层次 结构 定位 到 页 
面 中 看 到 数据 。 









































当 我 通过 点 击 tr 元 素 劳 边 的 箭头 ， 进 一 步 展 开 时 ， 可 以 注意 到 每 一 行 都 
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包含 一 个 类 名 为 w2p fw 的 <td> 元 素 ， 


如 图 2.3 所 示 。 


这 些 元 素 都 是 <tr> 元 素 的 子 元 素 ， 





<!--[if HTHLS]»«! [endif]--» 


«!-- paulirish.com/2008/conditional-stylesheets-vs-css-hacks-answer-neither/ --» 
<!--[if lt IE 7]»«html class="ie ie6 ie-lte9 ie-lteB ie-lte7 no-js" lang-"en-u 
<!--[if IE 7]»«html cla: 
<!--[if IE 8]»«html cla: 
<!--[if IE 9]»«html cla 
<!--[if (gt IE 9)| (IE) ]»- 
html class 








ie ie8 ie-lte9 ie-lte8 no-js" lang-"en-us"» «![endif]--» 
ie9 ie-lte9 no-js" lang-"en-us"» «![endif]--» 





p#shadow- root (open) 
<!--<![endif]--> 
> <head>..</head: 
Y <body: 
<!-- Navbar = 
><div class="navbar navbar-inverse™>..</div: 
<!--/top navbar --» 
v<div class="container 








before 
<!-- Masthead > 
b <header class="mastheader row" id-"header'-..-/header 
w-section id-'main" class-'main row 
before 
w-«div class-"spanl2 
w-form action-'£" enctype-"multipart/form-data" method-'post'- == $8 
vw table 
v -tbody 
b-tr id-'places flag row -..-/tr 
b-tr id-'places area row'».-/tr: 





p<tr id-"places population row'-.-/tr 


[X A] Elements Console Sources Network Timeline Profiles Application Security Audits AdBlock 


> «![endif]-- 
ie ie7 ie-lte9 ie-lte8 ie-lte7 no-js" lang-"en-us"» «![endif].-» 





js flexbox flexboxlegacy canvas canvastext webgl no-touch geolocation postmessage websqldatabase indexeddb hashchange history draganddrop websockets rgba hs 
fontface generatedcontent video audio localstorage sessionstorage webworkers applicationcache svg inlinesvg smil svgclippaths  lang-'en-us 


Currency Code: GBP 
Currency Name: Pound 
Phone: 44 


Postal Code Format: @# #@@|@## #@@|@@# #00|0 0# «ood 
Postal Code Regex: ^(([A-Z]d(2)[A-ZI(2)) (A-Zvi((3)[A-ZI(2ITA-Zi2)d(2)4 


Languages: en-GB,cy-GB,gd 
Neighbours: IE 
Edit 























P-tr id= places area TOW 71r 
tr id-'places population row »..-/tr 
w-tr id-"places iso row 
p<td class-"w2p fl'-.-/td 
td class-"w2p fw'-GB-/td 
td class-"w2p fc"></td 
/tr 
w-tr id-'places country or district row 
w-td class-"w2p fl 


v 


/td 
td class-"w2p fw'-United Kingdom-/td 
td class-"w2p fc'--/td 

/tr 


hom | 





label for="places country or district" id-"places country or district label">Country (District): 


/label 




















现在 我 们 已 经 通过 浏览 


图 2.3 


具 研 究 了 页 面 ， 知 道 





(或 地 区 ) 数据 表格 


的 HTML 层次 结构 ， 并 且 已 en th 


2.2 3 种 网 页 抓 取 方 法 





现在 我 们 已 经 了 解 了 该 网 页 的 结构 , 下面 将 会 介 


法 。 首先 是 正则 表达 式 ， 然后 是 流 


3 种 抓 取 其 中 数据 的 方 


J 的 BeautifulSoup 模块 ， 最 后 是 强大 
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的 1xml 模块 。 


2.2.1 正则 表达 式 


如 果 你 对 正则 表达 式 还 不 熟悉 ， 或 是 需要 一 些 提示 ， 那 么 你 可 以 查阅 
https://docs.python.org/2/howto/regex.html 获得 完整 介绍 。 即 
使 你 使 用 过 其 他 编程 语言 的 正则 表达 式 ， 我 依然 推荐 你 一 步 一 步 温 习 一 下 
Python 中 正则 表达 式 的 写法 。 





























T 


由 于 每 章 中 都 可 能 构建 或 使 用 前 面 章 节 的 内 容 ， 因 此 我 建议 你 按照 类 似 本 

书 代码 库 的 文件 结构 进行 配置 。 所 有 代码 都 可 以 从 代码 库 的 code 目录 中 
qp 运行 ， 以 便 导 入 工作 正常 。 如 果 你 希望 创建 一 个 不 同 的 结构 ， 请 注意 需要 变 

更 所 有 来 自 其 他 章 的 导入 操作 (比如 下 述 代码 中 的 from chpl.advanced | 


link crawler), 





当 我 们 使 用 正则 表达 式 抓 取 国 家 (或 地 区 ) 面积 数据 时 ， 首 先 需 要 尝试 匹 
配 <td> 元 素 中 的 内 容 ， 如 下 所 示 。 





>>> import re 
>>> from chpl.advanced link crawler import download 
>>> url = 'http://example.python-scraping.com/view/UnitedKingdom-239' 
>>> html = download (url) 
>>> re.findall(r'«td class-"w2p fw"»(.*?)«/td»', html) 
['«img src-2"/places/static/images/flags/gb.png" /»', 
'244,820 square kilometres', 
'62,348,447', 
GB"; 
'United Kingdom', 
'London', 
'<a href="/continent/EU">EU</a>', 
ky 
'GBP', 
'Pound', 
'44', 
'@# #@@|@## #CCICCE #CCICCHF #CCICHC #CCICQEC $GG|GIROAA', 
"^ (([A-2]d{2} [A-2] {2}) | ([A-2]d{3} [A-2] {2}) | ([A72] (21 8(2] [A-2] f 
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2}) | ([A-2] (218(3) [A-2] {2}) | ([A-Z] d[A-2] d [A72] (2]) | ([A-2] (2) d[A- 2] 
d[A-2] (21) | (GIROAA)) $', 

'en-GB,cy-GB,gd', 

'«div»«a href-"/iso/IE"»5IE «/a»«/div»'] 


从 上 述 结 果 中 可 以 看 出 ， 多 个 国家 《或 地 区 ) 属性 都 使 用 了 <ta 
class-"w2p fw"> 标 签 。 如 果 我 们 只 想 抓 取 国家 《或 地 区 ) 面积 ， 可 以 只 选 
择 第 二 个 匹配 的 元 素 ， 如 下 所 示 。 





























>>> re.findall('«td class-"w2p fw"»(.*?)«/td»', html)[1] 
'244,820 square kilometres' 


虽然 现在 可 以 使 用 这 个 方案 , 但 是 如 果 网 页 发 生变 化 , 该 方案 很 可 能 就 会 
失效 。 比 如 表格 发 生 了 变化 ， 去 除了 第 二 个 匹配 元 素 中 的 面积 数据 。 如 果 我 
们 只 在 当下 抓 取 数据 ， 就 可 以 忽略 这 种 未 来 可 能 发 生 的 变化 。 但 是 ， 如 果 我 
们 希望 在 未 来 东 一 时 刻 能 够 再 次 抓 取 该 数据 ， 就 需要 给 出 更 加 健壮 的 解决 方 
案 ， 从 而 尽 可 能 避免 这 种 布局 变化 所 带 来 的 影响 。 想 要 该 正则 表达 式 更 加 明 
角 ， 我 们 可 以 将 其 父 元 素 <tz> 也 加 入 进来 ， 由 于 该 元 素 具 有 ID 属性 ， 所 以 
应 该 是 唯一 的 。 



































zu 











>>> re.findall('«tr id-"places area row"><td class-"w2p fl"»«label 
for-"places area" id-"places area  label"»Area: «/label»«/td»«td 
class-"w2p fw"»(.*?)«/td»', html) 

['244,820 square kilometres'] 


这 个 迭代 版 本 看 起 来 更 好 一 些 , 但 是 网 页 更 新 还 有 很 多 其 他 方式 , 同样 可 以 
证 该 正则 表达 式 无 法 满足 。 比 如 ， 将 双 引 号 变 为 单 引号 ，<td> 标 签 之 间 添 加 多 
余 的 空格 , 或 是 变更 area label 等 。 下 面 是 尝试 文 持 这 些 可 能 性 的 改进 版 本 。 

















22» re.findall('''«tr 
id-"places area row"».*?«tds*class-["']w2p fw["']»(.*?)«/td»''', html) 
['244,820 square kilometres'] 


虽然 该 正则 表达 式 更 容易 适应 未 来 变化 , 但 又 存在 难以 构造 、 可 读 性 差 的 问 
题 。 此 外 ， 还 有 很 多 其 他 微小 的 布局 变化 也 会 使 该 正则 表达 式 无 法 满足 ， 比 如 








Hn 
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在 <td> 标 签 里 添加 title 属性 , 或 者 tr、td 元 素 修改 了 它们 的 CSS 类 或 ID。 

从 本 例 中 可 以 看 出 , 正则 表达 式 为 我 们 提供 了 抓 取 数据 的 快捷 方式 , 但 是 
该 方法 过 于 脆弱 ， 容 易 在 网 页 更 新 后 出 现 问题 。 幸 好 ， 还 有 更 好 的 数据 抽取 
解决 方案 ， 比 如 我 们 将 在 本 章 介绍 的 其 他 抓 取 库 。 





























2.2.2 Beautiful Soup 

Beautiful Soup 是 一 个 非常 流行 的 Python 库 , 它 可 以 解析 网 页 ， 并 提供 了 
定位 内 容 的 便捷 接口 。 如 果 你 还 没有 安装 该 模块 ， 可 以 使 用 下 面 的 命令 安装 
其 最 新 版 本 。 





























pip install beautifulsoup4 


使 用 Beautiful Soup 的 第 一 步 是 将 已 下 载 的 HTML. 内 容 解 析 为 soup 文档 。 
由 于 许多 网 页 都 不 具备 良好 的 HTML 格式 ， 因 此 Beautiful Soup 需要 对 其 标 
签 开 合 状 态 进行 修正 。 例 如 ， 在 下 面 这 个 简单 网 页 的 列表 中 ， 存 在 属性 值 两 
侧 引 号 缺失 和 标签 未 闭合 的 问题 。 











«ul class-country or district» 
«li»Area 
«li»Population 

</ul> 


如 果 Population 列表 项 被 解析 为 Area 列表 项 的 子 元 素 ， 而 不 是 并 列 
的 两 个 列表 项 的 话 ， 我 们 在 抓 取 时 融会 得 到 错误 的 结果 。 下 面 让 我 们 看 一 下 
Beautiful Soup 是 如 何 处 理 的 。 





























>>> from bs4 import BeautifulSoup 

>>> from pprint import pprint 

>>> broken html = '«ul class-country or district»«li»Area«li»Populationc/ul»' 
>>> # parse the HTML 

>>> Soup = BeautifulSoup(broken html, 'html.parser') 

>>> fixed html = soup.prettify() 

>>> pprint(fixed html) 
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«ul class-"country or district"» 
«li» 

Area 

«li» 

Population 

</li> 

</li> 
</ul> 


我 们 可 以 看 到 ,使 用 默认 的 html. parser 并 没有 得 到 正确 解析 的 HTML. 
从 前 面 的 代码 片段 可 以 看 出 ， 由 于 它 使 用 了 藤 套 的 li 元 素 ， 因 此 可 能 会 导致 定 
位 困难 。 亚运 的 是 , 我 们 还 有 其 他 解析 器 可 以 选择 。 我 们 可 以 安装 LXML (22.3 


节 中 将 会 详细 介绍 ), 或 使 用 htm151ib。 要 想 安装 html51ib, 内需 使 用 pip. 









































pip install html5lib 
现在 ， 我 们 可 以 重复 这 段 代 码 ， 只 对 解析 器 做 如 下 变更 。 


>>> Soup = BeautifulSoup(broken html, 'html5lib') 
>>> fixed html = soup.prettify() 
>>> pprint(fixed html) 
«html» 
«head» 
«/head» 
«body» 
«ul class-"country or district"» 
«li» 
Area 
</li> 
<li> 
Population 
</li> 
</ul> 
</body> 
</html> 

















此 时 ， 使 用 了 html5lib 的 BeautifulSoup 已 经 能 够 正确 解析 缺失 的 
属性 引号 以 及 闭合 标签 ， 并 且 还 添加 了 <html> 和 <body> 标 签 ， 使 其 成 为 完 
整 的 HTML 文档 。 当 你 使 用 1xml 时 ， 也 可 以 看 到 类 似 的 结果 。 
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现在 ， 我们 可 以 使 用 find() 和 find all() 方 法 来 定位 我 们 需要 的 元 





RI 
>>> ul = soup.find('ul', attrs-('class':'country or district']) 
>>> ul.find('li') 4 returns just the first match 
«li»Area«/li» 
>>> ul.find all('li') # returns all matches 


[X«li»Area«/li», «li»Population«c/li»] 


eb 想 要 了 解 可 用 方法 和 参数 的 完整 列表 ， 请 访问 Beautiful Soup 的 官方 文档 。 


且 ， 





下 面 是 使 用 该 方法 抽取 示例 网 站 中 国家 《或 地 区 ) 面积 数据 的 完整 代码 。 


>>> from bs4 import BeautifulSoup 

>>> url = 'http://example.python-scraping.com/places/view/United-Kingdom-239' 
>>> html = download (url) 

>>> soup = BeautifulSoup (html) 





>>> locate the area row 
>>> tr = soup.find(attrs={'id':'places_area__row'}) 
>>> td = tr.find(attrs={'class':'w2p_fw'}) # locate the data element 





>>> area = td.text # extract the text from the data element 





>>> print (area) 
244,820 square kilometres 


这 段 代码 虽然 比 正则 表达 式 的 代码 更 加 复杂 , 但 又 更 容易 构造 和 理解 。 而 
像 多 余 的 空格 和 标签 属性 这 种 布局 上 的 小 变化 ， 我 们 也 无 须 再 担心 了 。 




















我 们 还 知道 即使 页 面 中 包含 了 不 完整 的 HTML，Beautiful Soup 也 能 帮助 我 们 











wH 





2.2 


该 页 面 ， 从 而 让 我 们 可 以 从 非常 不 完整 的 网 站 代码 中 抽取 数据 。 


.3 Lxml 
Lxml 是 基于 1ibxml2 这 一 XML 解析 库 构 建 的 Python JÆ, 它 使 用 C 语言 编 





写 , 解 术 速度 比 Beautiful Soup 更 快 , 不 过 安装 过 程 也 更 为 复杂 , 尤其 是 在 Windows 


中 。 


最 新 的 安装 说 明 可 以 参考 nttp://lxml.de/installation.html. Jl 














果 你 在 自行 安装 该 库 时 遇 到 困难 ， 也 可 以 使 用 Anaconda 来 实现 。 
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你 可 能 对 Anaconda 不 太 熟 悉 ， 它 是 由 Continuum Analytics 公司 员工 创建 
的 主要 专注 于 开源 数据 科学 包 的 包 和 环境 管理 器 。 你 可 以 按照 其 安装 说 明 下 载 
及 安装 Anaconda. 。 需 要 注意 的 是 ， 使 用 Anaconda 的 快速 安装 会 将 你 的 
PYTHON PATH 设置 为 Conda 的 Python 安装 位 置 。 


和 Beautiful Soup 一 样 ， 使 用 lxml 模块 的 第 一 步 也 是 将 有 可 能 不 合法 的 
HTML 解析 为 统一 格式 .下 面 是 使 用 该 模块 解析 同一 个 不 完整 HTML 的 例子 。 
































>>> from lxml.html import fromstring, tostring 
>>> broken html = '«ul class-country or district»«li»Area«li»Population«/ul»' 
>>> tree = fromstring(broken html) # parse the HTML 
>>> fixed html = tostring(tree, pretty print-True) 
>>> print(fixed html) 
«ul class-"country or district"» 
«li»Area«/li» 
«li»Population«/li» 
</ul> 


同样 地 ，1xml 也 可 以 正确 解析 属性 两 侧 缺失 的 引号 ， 并 闭合 标签 ， 不 过 
该 模块 没有 额外 添加 <html> 和 <body> 标 签 。 这 些 都 不 是 标准 XML 的 要 求 ， 
因此 对 于 1xml 来 说 ， 插 入 它们 并 不 是 必要 的 。 

解析 完 输 入 内 容 之 后 ， 进 入 选择 元 素 的 步骤 ， 此 时 1xml 有 几 种 不 同 的 方法 ， 
比如 XPath 选择 器 和 类 似 Beautiful Soup 的 find OQ 方法 。 不 过 ， 在 本 例 中 ， 我 们 
将 会 使 用 CSS 选择 器 ， 因 为 它 更 加 简洁 ， 并 且 能 够 在 第 S 章 解 析 动 态 内 容 时 得 以 
复 用 。 一 些 读者 可 能 由 于 他 们 在 jQuery 选择 器 方面 的 经 验 或 是 前 端 Web 应 用 开发 
中 的 使 用 对 它们 已 经 有 所 熟悉 。 在 本 章 的 后 续 部 分 ,我 们 将 对 比 这 些 选 择 器 与 XPath 
的 性 能 。 要 想 使 用 CSS 选择 器 ， 你 可 能 需要 先 安 装 cssselect 库 ， 如 下 所 示 。 






























































pip install cssselect 


现在 ， 我 们 可 以 使 用 1xml 的 CSS 选择 器 ， 抽 取 示 例 页 面 中 的 面积 数据 了 。 





>>> tree = fromstring (html) 
>>> td = tree.cssselect('triüplaces area row > td.w2p fw') [0] 
>>> area = td.text content() 
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2.3 CSS 选择 器 和 浏览 器 控制 台 


>>> print(area) 
244,820 square kilometres 


通过 对 代码 树 使 用 cssselect 方法 ， 我 们 可 以 利用 CSS 语法 来 选择 表 
i ID N places area row 的 行 元 素 , 然后 是 类 为 w2P_fw J 
据 标 签 。 由 于 cssselect 返回 的 是 一 个 列表 ， 我 们 需要 获取 其 中 的 第 
DD DAN LOB M dr HR 
关 文 本 。 在 本 例 中 ， 尽 管 我 们 只 有 一 个 元 素 ， 但 是 该 功能 对 于 更 加 复杂 的 抽 
取 示 例 来 说 非常 有 用 。 




































































2.3 CSS 选择 器 和 浏览 器 控制 台 


类 似 我 们 在 使 用 cssselect 时 使 用 的 标记 , CSS 选择 器 可 以 表示 选择 元 
素 时 所 使 用 的 模式 。 下 面 是 一 些 你 需要 知道 的 常用 选择 器 示例 。 














Select any tag: * 

Select by tag <a>: a 

Select by class of "link": .link 

Select by tag «a» with class "link": a.link 
Select by tag «a» with ID "home": a#home 
Select by child «span» of tag «a»: a > span 
Select by descendant «span» of tag «a»: a span 











Select by tag «a» with attribute title of "Home": a[title-Home] 
cssselect 库 实现 了 大 部 分 CSS3 选择 器 的 功能 ， 其 不 支持 的 功能 (主要 是 
浏览 器 交互 ) 可 以 查看 https://cssselect.readthedocs.io/en/ 


latest/#supported-selectors。 











W3C 已 提出 CSS3 规范 。 在 Mozilla 针对 CSS 的 开发 者 指南 中 ， 也 有 一 个 有 
用 且 更 加 易 读 的 文档 。 


由 于 我 们 在 第 一 次 编写 时 可 能 不 会 十 分 完美 ， 因 此 有 时 测试 CSS 选择 器 
十 分 有 用 。 在 编写 大 量 无 法 确定 能 够 工作 的 Python 代码 之 前 ， 在 某 个 地 方 调 
试 任何 与 选择 器 相关 的 问题 进行 测试 是 一 个 不 错 的 主意 。 
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当 一 个 网 站 使 用 jQuery 时 ， 可 以 非常 容易 地 在 浏览 器 控制 台中 测试 CSS 
选择 器 。 控 制 台 是 你 使 用 的 浏览 器 中 开发 者 工具 的 一 部 分 ， 可 以 让 你 在 当前 
页 面 中 执行 JavaScript 代码 《如果 文 持 的 话 ， 还 可 以 执行 jQuery )。 








D 如 果 想 要 更 多 地 了 解 jQuery， 可 以 学 习 一 些 免 费 的 在 线 课程 。 


使 用 包含 jQuery 的 CSS 选择 器 时 ， 你 唯一 需要 知道 的 语法 就 是 对 象 选择 
(如 $ ('div.class_name');)。jQuery 使 用 和 圆 括号 来 选择 对 象 。 在 括号 
中 ， 你 可 以 编写 任何 CSS 选择 器 。 对 于 文 持 jQuery 的 站 点 ， 在 你 浏览 器 的 控 
制 台中 执行 它 ， 可 以 看 到 你 所 选择 的 对 象 。 由 于 我 们 已 经 知道 示例 网 站 中 使 
用 了 jQuery 无 论 是 通过 查看 源 代码 ， 还 是 通过 网 络 选 项 卡 观察 到 的 jQuery 
加 载 ， 或 者 是 使 用 detectem 模块 )， 我 们 可 以 尝试 使 用 CSS 选择 器 选择 所 
有 的 tr 元 素 ， 如 图 2.4 所 示 。 

















SLG CILIIN ERTATA ge IE C3 
[x ao Elements Console Sources Network » 
© Y top v Preserve log 

$('tr') 

[P<tr id-"places flag row">.</tr>, 

><tr id-'places area row"-.-/tr», 

b-tr id-'places population row" -..-/tr^, 

b-tr id-'places iso row'-.-/tr-», 

b-tr id-'places country or district row">.</tr>, 

b-tr id-'places capital row ».-/tr», 

b-tr id-'places continent row'».-/tr-, 

p<tr id-"places tld row'»--/tr», 

p<tr id-'places currency code row -..-/tr», 

p<tr id-"'places currency name row -..-/tr», 

b-tr id-'places phone row »..-/tr», 

b-tr id-'places postal code format row -..-/tr», 

p<tr id-' places postal code regex row'-.-/tr-», 

b-tr id-'places languages row'».-/tr», 

p<tr id-'places neighbours row -..-/tr»] 
> 

图 2.4 














仅仅 通过 使 用 标签 名 , 我 们 就 可 以 看 到 国家 (或 地 区 ) 数据 中 的 每 一 行 。 
我 还 可 以 使 用 更 长 的 CSS 选择 器 来 选择 元 素 。 下 面 让 我 们 尝试 选择 所 有 带 
有 w2p_fw 类 的 ta 元素， 因为 我 知道 这 里 包含 了 页 面 中 展示 的 最 主要 的 数 
据 ， 如 图 2.5 所 示 。 
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Flag: [X m 
LE EI 

Area: 244,820 square kilometres 
Population: 62,348,447 

Iso: GB 

Country (District): United Kingdcm 

Capital: London 

Continent: EU 
x 而 Elements cT Sources Network Timeline » : 0X 
G Y top M Preserve log 

$('td.w2p fw') 


w-td class-"w2p fw 
img src-"/places/static/imeges/flags/qb.pnq 





/td , 
td class-"w2p fw'-244,820 square kilometres-/td-, 
td class-"w2p fw'-62,348,447-/td», td class-"w2p fw'-GB-/td-, 


td class-"w2p fw'»United Kingdom-/td-, 
td class-"w2p fw'-London-/td-, b-td class="w2p fw -..-/td», 
td class-"w2p fw">.uk</td>, td class-"w2p fw »GBP-/td-, 
td class-"w2p fw'»Pound-/td», td class-"w2p fw'»44-/td», 
td class-'w2p fw'-Q£ #@@|@## *eo|eo* fes|ooff foo|ofo foo|oefo 
#06@| GIROAA-/td 

, P<td class-"w2p fw">.</td>, 
td class-"w2p fw'»en-GB,cy-GB,gd-/td», 

b-td class-"w2p fw -..-/td-] 

> 














图 2.5 














你 可 能 还 会 注意 到 ， 当 你 使 用 鼠标 点 击 返 回 的 元 素 时 ， 可 以 展开 它们 ， 并 
能 够 在 上 面 的 窗口 中 高 亮 显 示 《〈 依 赖 于 你 所 使 用 的 浏览 器 )。 这 是 一 个 非常 
有 用 的 测试 数据 的 方法 。 如 果 你 所 抓 取 的 网 站 在 浏览 器 中 不 文 持 加 载 jQuery 
或 者 任何 其 他 对 选择 器 友好 的 库 ， 那 么 你 可 以 仅仅 使 用 JavaScript 通过 
document 对 象 实现 相同 的 查询 。querySelector 方法 的 文档 可 以 在 
Mozilla 开发 者 网 络 中 获取 到 。 
即使 你 已 经 学 会 了 在 控制 台中 使 用 1xml 的 CSS 选择 器 ， 学 习 XPath 依 
然 是 非常 有 用 的 ,因为 1xml 在 求 值 之 前 会 将 所 有 的 CSS 选择 器 转换 为 XPath 。 
让 我 们 继续 学 习 如 何 使 用 XPath， 来 吧 ! 














2.4 XPath 选择 器 








有 时 候 使 用 CSS 选择 器 无 法 正常 工作 ， 尤 其 是 在 HTML 非常 不 完整 或 
存在 格式 不 当 的 元 素 时 。 尽 管 像 BeautifulSoup 和 1Lxml 这 样 的 库 已 经 





一 -43 一 
异步 社区 会 员 sergeant(15779577768) 专 享 尊重 版 权 








第 2 章 数据 抓 取 














尽 了 最 大 努力 来 纠正 解析 并 清理 代码 ， 然 而 它 可 能 还 是 无 法 工作 ， 在 这 些 
情况 下 ，XPath 可 以 帮助 你 基于 页 面 中 的 层次 结构 关系 构建 非常 明确 的 选 
TER. 

XPath 是 一 种 将 XML 文档 的 层次 结构 描述 为 关系 的 方式 。 因为 HTML 是 
由 XML 元 素 组 成 的 ， 因 此 我 们 也 可 以 使 用 XPath 从 HTML 文档 中 定位 和 选 
择 元 素 。 




































































qp 如 果 你 想 了 解 更 多 XPath 相关 的 知识 ， 可 以 查阅 Mozilla 的 开发 者 文档 。 








XPath 遵循 一 些 基 本 的 语法 规则 ， 并 且 和 CSS 选择 器 有 些许 相似 。 表 2.1 
所 示 为 这 两 种 方法 的 一 些 快速 参考 。 































































































表 2.1 
选择 器 描述 XPath 选择 器 CSS 选择 器 

选择 所 有 链接 '//a' 'a' 
选择 类 名 为 "main" 的 div 元 素 '//div[(Qclass-"main"]' 'div.main' 
选择 ID 为 "list" 的 ul 元 素 VWul[C@id="list"] 'ul#list' 
从 所 有 段落 中 选择 文本 "/|pAtext()' p* 
选择 所 有 类 名 中 包含 'test' 的 div 元 素 '//div[contains(@class, 'test") |' 'div [class*—"test"]' 
选择 所 有 包含 链接 或 列表 的 div 元 素 '/div[a[ul] ' 'div a, div ul 
选择 href 属性 中 包含 google.com 的 链接 | /a[contains((Qhref, "google.com")] 'a'* 











从 表 2.1 中 可 以 看 到 ， 两 种 方式 的 语法 有 许多 相似 之 处 。 不 过 ， 在 表 2.1 
中 ， 有 一 些 CSS 选择 器 使 用 * 表 示 ， 代 表 使 用 CSS 选择 这 些 元 素 是 不 可 能 的 ， 
我 们 已 经 提供 了 最 佳 的 蔡 代 方案 。 在 这 些 例 子 中 ， 如 果 你 使 用 的 是 
cssselect， 那 么 还 需要 在 Python 和 /或 1xml 中 做 进一步 的 处 理 或 迭代 。 
希望 这 个 对 比 已 经 给 出 了 XPath 的 介绍 ， 并 且 能 够 让 你 相信 它 比 使 用 CSS 更 
加 严格 、 具 体 。 


在 我 们 学 习 了 XPath 语法 的 基本 介绍 之 后 , 再 来 看 下 如 何在 我 们 的 示例 网 
站 中 使 用 它 。 
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>>> tree = fromstring (html) 


>>> area = 
tree.xpath ('//tr[@id="places_area row"]/td[@class="w2p fw"]/text()')[0] 


>>> print (area) 
244,820 square kilometres 


和 CSS 选择 器 类 似 , 你 同样 也 可 以 在 浏览 器 控制 台中 测试 XPath 选择 器 。 
要 想 实现 该 目的 ， 只 需 在 页 面 中 使 用 $x ('pattern here') ;选择 器 。 相 
似 地 ， 你 也 可 以 只 使 用 JavaScript 的 document 对 象 ， 并 调用 其 evaluate 


方法 。 








Mozilla 开发 者 网 络 中 有 一 篇 非常 有 用 的 教程 ， 介 绍 了 在 JavaScript 中 使 用 
XPath 的 方法 ， 其 网 址 为 https://developer.mozilla.org/en-US/ 


docs/Introduction to using XPath in JavaScript, 








假如 我 们 想 要 测试 查找 带 有 图 片 的 ta 元 素 ， 来 获取 国家 《或 地 区 ) 页 面 
中 的 旗帜 数据 的 话 ， 可 以 先 在 浏览 器 中 测试 XPath 表达 式 ， 如 图 2.6 所 示 。 





Flag: -一 

"mc 
Area: 244,820 square kilometres 
Population: 62,348,447 
Iso: GR J 
[x à] Elements Console Sources Network Timeline » x 
G Y top v Preserve log 


$x('//td/img') 
img src-"/places/static/images/flags/qb.pnq"-»] 





[ 
$x('//td/img/asrc') 
[ srcz"/places/static/images/flags/gb.png*] 


> 














D 
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在 这 里 可 以 看 到 ， 我 们 可 以 使 用 属性 来 指明 想 要 抽取 的 数据 (比如 
esrc)。 通 过 在 浏览 器 中 进行 测试 ， 我 们 可 以 凭借 获取 即时 并 且 易 读 的 结果 ， 
节省 调试 时 间 。 

在 本 章 及 后 续 章 节 中 , XPath 和 CSS 选择 器 都 会 使 用 到 ,这样 你 就 可 以 更 
加 熟悉 它们 ， 并 且 在 你 提高 自己 的 网 络 疏 虫 能 力 时 ， 对 它们 的 使 用 更 加 自信 。 














2.5 LXML 和 家 族 树 


lxml BAW HTML 页 面 中 家 族 树 的 能 力 。 家 族 树 是 什么 ? 当 你 使 
用 浏览 器 的 开发 者 工具 来 查看 页 面 中 的 元 素 时 ， 你 可 以 展开 或 缩 进 它们 ， 这 
就 是 在 观察 HTML 的 家 族 关 系 。 网 页 中 的 每 个 元 素 都 包含 父亲、 兄 第 和 孩子 。 
这 些 关 系 可 以 帮助 我 们 更 加 容易 地 人 吉 历 页 面 。 

例如 ， 当 我 希望 查找 页 面 中 同一 节点 深度 的 所 有 元 素 时 , 就 需要 查找 它们 
的 兄弟 ; 或 是 我 希望 得 到 页 面 中 某 个 特定 元 素 的 所 有 子 元 素 时 。Lxml 允许 我 
们 通过 简单 的 Python 代码 大 量 使 用 此 类 关系 。 

作为 示例 ， 让 我 们 来 查看 示例 页 面 中 table 元 素 的 所 有 子 元 素 。 













































































>>> table = tree.xpath('//table')[0] 
>>> table.getchildren() 

[XElement tr at 0x7f525158ec78>, 
XElement tr at 0x7f52515ad638»5, 
XElement tr at Ox7f52515ad5e8»5, 
XElement tr at 0x7f52515ad688»5, 
«Element tr at 0x7f£52515ad728», 

..] 


我 们 还 可 以 查看 表格 的 兄弟 元 素 和 父 元 素 。 














>>> prev sibling = table.getprevious() 
>>> print(prev sibling) 

None 

>>> next sibling = table.getnext() 
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>>> print(next sibling) 

XElement div at 0x7f£5252fe9138» 
>>> table.getparent() 

XElement form at 0x7f£52515ad3b8» 


如 果 你 需要 更 加 通用 的 方式 来 访问 页 面 中 的 所 有 元 素 ， 那 么 结合 XPath 
表达 式 遍 历 家 族 关 系 是 一 个 能 够 让 你 不 丢失 任何 内 容 的 好 方式 。 它 可 以 帮助 
你 从 许多 不 同类 型 的 页 面 中 抽取 内 容 ， 你 可 以 通过 识别 页 面 中 那些 元 素 附 近 
的 内 容 ， 来 识别 页 面 中 某 些 重要 的 部 分 。 即 使 该 元 素 没 有 可 识别 的 CSS 选择 
器 ， 该 方法 同样 也 可 以 工作 。 














2.6 性 能 对 比 


要 想 更 好 地 对 2.2 节 中 介绍 的 3 种 抓 取 方法 评估 取舍 , 我 们 需要 对 其 相对 
效率 进行 对 比 。 一 般 情况 下 ， 门 虫 会 抽取 网 页 中 的 多 个 字段 。 因 此 ， 为 了 让 
对 比 更 加 真实 ， 我 们 将 为 本 章 中 的 每 个 聆 虫 都 实现 一 个 扩展 版 本 ， 用 于 抽取 
国家 《或 地 区 ) 网 页 中 的 每 个 可 用 数据 。 首 先 ， 我 们 需要 回 到 浏览 器 中 ， 检 
查 国 家 《或 地 区 ) 页 面 其 他 特征 的 格式 ， 如 图 2.7 所 示 。 





$ Inspect 
Console | HTML | CSS Script DOM 
z «table» 
<tbody> 


x «tr id-"places flag row"> 
Œ «tr id-"places area row"> 
Ej «tr id-"places population row"» 
Ej «tr id-"places iso row"> 
Œ «tr id-"places country or district  row"» 
Bj «tr id-"places capital row" 
Ej «tr id-"places continent row"> 
Œ «tr id-"places tld row"» 
Ej «tr id-"places currency code row"> 
Bj «tr id-"places currency name row"> 
由 «tr id-"places phone row"» 
Bg «tr id-"places postal code format row"> 
Ej «tr id-"places postal code regex row"> 
Bj «tr id-"places languages row"> 
Ej «tr id-"places neighbours  row"» 
«/tbody» 
</table> 











D 
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通过 使 用 浏览 器 的 查看 功能 ,我 们 可 以 看 到 表格 中 的 每 一 行 都 拥有 一 个 以 
places 起 始 且 以 row 结束 的 站。 而 在 这 些 行 中 包含 的 国家 (或 地 区 ) 数 
据 ， 其 格式 都 和 面积 示例 相同 。 下 面 是 使 用 上 述 信息 抽取 所 有 可 用 国家 《或 
地 区 ) 数据 的 实现 代码 。 

















FIELDS = ('area', 'population', 'iso', 'country or district', 'capital', 'continent', 
'tld', 'currency code', 'currency name', 'phone', 'postal code format', 
'postal code regex', 'languages', 'neighbours') 


import re 
def re scraper (html): 
results = {} 
for field in FIELDS: 
results[field] = re.search('«tr id-"places $s  row"».*?«td 
class-"w2p fw"»(.*?)«/td»' $ field, html).groups()[0] 
return results 





from bs4 import BeautifulSoup 
def bs scraper (html): 

soup = BeautifulSoup(html, 'html.parser') 

results = () 

for field in FIELDS: 

results[field] = soup.find('table').find('tr',id-'places $s  row' $ 

field).find('td', class -'w2p fw').text 

return results 





from lxml.html import fromstring 
def lxml scraper (html): 








tree - fromstring (html) 
results = () 
for field in FIELDS: 
results[field] = tree.cssselect('table > tr#places $s row > 
td.w2p fw' $ field)[0].text content() 


return results 


def lxml xpath scraper (html): 
tree - fromstring (html) 

results = () 

for field in FIELDS: 

results[field] = 
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tree.xpath('//tr[8id-"places $s row"]/td[G8class-"w2p fw"]' $ 
field) [0] .text content () 
return results 


2.7 MRAR 


ME, S025 AUG TÉSUNBTSCHL,. Bi FRKE PARI A E, 
测试 这 3 种 方法 的 相对 性 能 。 代 码 中 的 导入 操作 期 望 你 的 目录 结构 与 本 书 代 
码 库 相同 ， 因 此 请 根据 需要 进行 调整 。 




















import time 

import re 

from chp2.all scrapers import re scraper, bs scraper, 
lxml scraper, lxml xpath scraper 

from chpl.advanced link crawler import download 





NUM ITERATIONS = 1000 # number of times to test each scraper 
html = 
download ('http://example.python-scraping.com/places/view/United-Kingdom-239') 


scrapers = [ 

('Regular expressions', re_scraper), 
('BeautifulSoup', bs_scraper), 
('Lxml', lxml scraper), 

('Xpath', lxml xpath scraper)] 











for name, scraper in scrapers: 
# record start time of scrape 
start = time.time() 
for i in range (NUM ITERATIONS): 
if scraper -- re scraper: 
re.purge() 
result = scraper (html) 


# check scraped result is as expected 
assert result['area'] == '244,820 square kilometres' 





# record end time of scrape and output the total 
nd = time.time() 


print('$s: $.2f seconds' $ (name, end - start)) 
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在 这 段 代码 中 ， 每 个 息 忠 都 会 执行 1000 次 ， 每 次 执行 都 会 检查 抓 取 结果 
是 否 正确 ， 然 后 打印 总 用 时 。 这 里 使 用 的 download 函数 依然 是 上 一 章 中 定 
义 的 那个 函数 。 请 注意 ， 我 们 在 代码 行 中 调用 了 re .purge () 方 法。 默认 情 
况 下 ， 正 则 表达 式 模块 会 缓存 搜索 结果 ， 为 了 使 其 与 其 他 疏 虫 的 对 比 更 加 公 
平 ， 我 们 需要 使 用 该 方法 清除 缓存 。 

下 面 是 在 我 的 计算 机 中 运行 该 脚本 的 结果 。 






































$ python chp2/test scrapers.py 
Regular expressions: 1.80 seconds 
BeautifulSoup: 14.05 seconds 
Lxml: 3.08 seconds 

Xpath: 1.07 seconds 


由 于 硬件 条 件 的 区 别 , 不 同 计算 机 的 执行 结果 也 会 存在 一 定 差异 .。 不 过 ， 
每 种 方法 之 间 的 相对 差异 应 当 是 相似 的 。 从 结果 中 可 以 看 出 ,在 抓 取 我 们 的 
示例 网 页 时 ，Beautiful Soup 的 速度 是 其 他 方法 的 1/6。 实际 上 这 一 结果 是 符 
合 预 期 的 ， 因 为 lxml 和 正则 表达 式 模 块 都 是 C 语言 编写 的 ， 而 
BeautifulSoup 则 是 纯 Python 编写 的 。 一 个 有 趣 的 事实 是 ，1xml 表现 得 
和 正则 表达 式 差不多 好 。 由 于 1xml 在 搜索 元 素 之 前 ， 必 须 将 输入 解析 为 内 
部 格式 ， 因 此 会 产生 额外 的 开销 。 而 当 抓 取 同 一 网 页 的 多 个 特征 时 ， 这 种 初 
始 化 解析 产生 的 开销 就 会 降低 ，1lxml 也 就 更 具 竞 争 力 。 正 如 我 们 在 使 用 
XPath 解析 器 时 所 看 到 的 ，1Lxml 也 可 以 直接 使 用 正则 表达 式 与 之 抗争 。 这 
真是 一 个 令 人 惊叹 的 模块 ! 
























































虽然 我 们 强烈 鼓励 你 使 用 1xml 进行 解析 ， 不 过 网 络 抓 取 的 最 大 性 能 瓶颈 
通常 是 网 络 。 我们 将 会 讨论 并 行 工 作 流 的 方法 ， 从 而 让 你 能 够 通过 并 行 处 
理 多 个 请 求 工 作 ， 来 提升 想 虫 的 速度 。 


2.7.1 抓 取 总 结 
表 2.2 总 结 了 每 种 抓 取 方 法 的 优 缺 点 。 
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表 2.2 
抓 取 方 法 性 能 使 用 难度 安装 难度 
正则 表达 式 快 困难 简单 (内 置 模块 ) 
Beautiful Soup 慢 简单 简单 ( 纯 Python) 
Lxml 快 简单 相对 困难 











如 果 对 你 来 说 速度 不 是 问题 ， 并 且 更 希望 只 使 用 pip 安装 库 的 话 ， 那 么 
使 用 较 慢 的 方法 (如 Beautiful Soup) 也 不 成 问题 。 如 果 只 需 抓 取 少 量 数据 ， 
并 且 想 要 避免 额外 依赖 的 话 ， 那 么 正则 表达 式 可 能 更 加 适合 。 不 过 ， 通 常情 
况 下 ，1xml 是 抓 取 数据 的 最 佳 选择 ， 这 是 因为 该 方法 既 快 速 又 健壮 ， 而 正则 
表达 式 和 Beautiful Soup 或 是 速度 不 快 ， 或 是 修改 不 易 。 


2.7.2 为 链接 讨 虫 添加 抓 取 回调 


前 面 我 们 已 经 了 解 了 如 何 抓 取 国 家 (或 地 区 ) 数据 ， 接 下 来 我 们 需要 将 其 
集成 到 第 1 章 的 链接 把 虫 当中 。 要 想 复 用 这 段 候 虫 代码 抓 取 其 他 网 站 ， 我 们 
需要 添加 一 个 callback 参数 处 理 抓 取 行为 。callback 是 一 个 函数 ， 在 发 
生菜 个 特定 事件 之 后 会 调用 该 函数 〈 在 本 例 中 ， 会 在 网 页 下 载 完成 后 调用 )。 
这 里 的 抓 取 callback 函数 包含 url 和 html 两 个 参数 ,并 且 可 以 返回 一 个 
FERRI URL 列表 。 下 面 是 其 实现 代码 ， 可 以 看 出 在 Python 中 实现 该 功能 
非常 简单 。 






























































def link crawler(..., scrape callback-None): 


data = [] 
if scrape callback: 
data.extend(scrape callback(url, html) or []) 





在 上 面 的 代码 片段 中 ， 我 们 显示 了 新 增加 的 抓 取 callback 函数 代码 。 如 
果 想 要 获取 该 版 本 链接 疏 虫 的 完整 代码 ， 可 以 访问 异步 社区 下 载 本 书 源 码 ， 从 
中 找到 该 文件 ， 其 名 为 aqvanced link crawler.py. 
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现在 ， 我 们 只 需 对 传 入 的 scrape callback 函数 进行 定制 化 处 理 ， 就 
能 使 用 该 聆 虫 抓 取 其 他 网 站 了 。 下 面 对 1xml 抓 取 示例 的 代码 进行 了 修改 ， 
使 其 能 够 在 callback 函数 中 使 用 。 











def scrape callback(url, html): 
fields - ('area', 'population', 'iso', 'country or district', 'capital', 
'continent', 'tld', 'currency code', 'currency name', 
'phone', 'postal code format', 'postal code regex', 
'languages', 'neighbours') 
if re.search('/view/', url): 


tree - fromstring (html) 
all rows = 
tree.xpath('//tr[G8id-"places $s row"]/td[8class-"w2p fw"]' $ 


field) [0] .text content () 
for field in fields] 
print(url, all rows) 
上 面 这 个 callback 函数 会 去 抓 取 国 家 (或 地 区 ) 数据 ， 然 后 将 其 显示 
出 来 。 人 并 使 用 我 们 的 正则 表达 式 及 URL 调 
用 它们 ， 来 进行 测试 





>>> from chp2.advanced link crawler import link crawler, scrape callback 
>>> link crawler('http://example.python-scraping.com', '/(index|view)/', 
Scrape callback-scrape callback) 


你 现在 应 该 能 够 看 到 页 面 下 载 的 输出 显示 ， 以 及 一 些 显示 了 URL 和 被 抓 
取 数 据 的 行 ， 如 下 所 示 。 


Downloading: http://example.python-scraping.com/view/Botswana-30 

http://example.webscraping.com/view/Botswana-30 ['600,370 square 

kilometres', '2,029,307', 'BW', 'Botswana', 'Gaborone', 'AF', '.bw', 'BWP', 

'Pula!', '267', '', '', 'en-BW,tn-BW', 'ZW ZA NA '] 

通常 ， 当 抓 取 网 站 时 ， 我 们 更 希望 复 用 得 到 的 数据 ， 而 不 仅仅 是 打印 出 
来 ， 因 此 我 们 将 对 该 示例 进行 扩展 ， 将 结果 保存 到 CSV 电子 表格 当中 ， 如 
下 所 示 。 
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import csv 
import re 
from lxml.html import fromstring 
class CsvCallback: 
def | init (self): 
self.writer = csv.writer (open('../data/countries or districts.csv', 'w')) 





self.fields - ('area', 'population', 'iso', 'country or district', 
'capital', 'continent', 'tld', 'currency code', 
'currency name', 
'phone', 'postal code format', 'postal code regex', 
'languages', 'neighbours') 
self.writer.writerow(self.fields) 





def | call (self, url, html): 
if re.search('/view/', url): 
tree - fromstring (html) 
all rows = [ 
tree.xpath( 
'//tr[Gid-"places $s row"]/td[G8class-"w2p fw"]' $ 
field) [0] .text content () 
for field in self.fields] 


self.writer.writerow(all rows) 


为 了 实现 该 callback， 我 们 使 用 了 回调 类 ， 而 不 再 是 回调 函数 ， 以 便 
保持 csv 中 writer 属性 的 状态 。csv 的 writer 属性 在 构造 方法 中 进行 了 
实例 化 处 理 , 然后 在 ”call 方法 中 执行 了 多 次 写 操 作 。 请 注意 ， call _ 
是 一 个 特殊 方法 ， 在 对 象 作 为 函数 被 调用 时 会 调用 该 方法 ， 这 也 是 链接 把 虫 
中 cache callback 的 调用 方法 。 也 就 是 说 ，scrape_ MERDA 
html) 和 调用 scrape callback. call (url,html) 是 等 价 的 。 如 果 
想 要 了 解 更 多 有 关 Python 特殊 类 方法 的 知识 ， 可 以 参考 n A 
python.org/3/reference/datamodel.html#special-method- 
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>>> from chp2.advanced link crawler import link crawler 
>>> from chp2.csv callback import CsvCallback 
>>> link crawler('http://example.python-scraping.com/', '/(index|view)', 
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max depth--1, scrape callback-CsvCallback()) 


请 注意 , CsvCcallback 期 望 在 与 你 运行 代码 的 父 目 录 同 一 层 中 包含 一 个 
data 目录 。 这 一 要 求 同 样 可 以 修改 ， 不 过 我 们 建议 你 遵循 良好 的 编码 实践 ， 
保持 代码 与 数据 分 离 一 一 让 你 的 代码 在 版 本 控制 之 下 ， 而 data 目录 
在 .gitignore 文件 中 。 下 面 是 示例 的 目录 结构 。 























wswp/ 
-- code/ 
-- chp1/ 
+ (code files from chp 1) 
*-- chp2/ 
* (code files from chp 2) 
-- data/ 
(generated data files) 
-- README.md 
+-- .gitignore 


现在 ， 当 我 们 运行 这 个 使 用 了 scrape callback WER, EFM 
将 结果 写 入 到 一 个 CSV 文件 中 ， 我 们 可 以 使 用 类 似 Excel 或 者 LibreOffice 的 
应 用 查看 该 文件 。 此 时 可 能 会 比 第 一 次 运行 时 花费 更 多 时 间 ， 因 为 它 正 在 忙 
碌 地 收集 信息 。 当 疏 虫 退出 时 ， 你 应 该 就 可 以 查看 包含 所 有 数据 的 CSV 文件 
了 ， 如 图 2.8 所 示 。 
























































ani dAn 
Emim-E-h- E 
7 im c s ji T ee n 1 m] 
' area population iso capital continent tld currency code currency name phone poste 
= — kilometres 11651858 ZW Zimbabwe Harare AF zw ZWL Dollar 263 
kilometres | 13460305 ZM Zambia Lusaka AF zm ZMW Kwacha 260 HHE 
E kilometres | 23495361 YE Yemen Sanaa AS .ye YER Rial 967 
B kilometres 273008 EH Western Sahara El-Aaiun AF .eh MAD Dirham 212 
kilometres 16025 WF Wallis and Eutuna Mata Utu oc wf XPF Franc 6814488 
B kilometres |89571130VN Vietnam Hanoi AS .vn VND Dong B4 HHHH 
kilometres 27223228 VE Venezuela Caracas SA .ve VEF Bolivar 58 HHH 
El kilometres 921VA Vatican Vatican City EU va EUR Euro 379 HHE 
B kilometres 221552VU Vanuatu Port Vila oc avu VUV Vatu 678 
I" kilometres |27865738UZ Uzbekistan Tashkent AS .uz UZS Som 998 4444 
— kilometres | 3477000 UY Uruguay Montevideo SA .uy UYU Peso 598 HHHH 
kilometres 0UM United States Minor Outlying Islands oc .ur USD Dollar 1 
kilometres 3.1E+008 US United States Washington NA .us USD Dollar lE 
国 kilometres 62348447 GB United Kingdom London EU .Uk GBP Pound 44 (D $& 
| kilometres 4975593 AE United Arab Emirates Abu Dhabi AS .ae AED Dirham. 971 
" kilometres | 45415596 UA Ukraine Kiev EU .ua UAH Hryvnia 380 HHHH 
g kilometres 33398682 UG Uganda Kami F ug UGX Shilling 256 
^ kilometres 108708 VI U.S. Virgin Islands Charlotte Amalie NA vi USD Dollar +1-340 HHE 
kilometres 10472TV Tuvalu Funafuti oc ty AUD Dollar 688 
I: kilometres 20556 TC Turks and Caicos Islands Cockburn Town NA ‘tc USD Dollar +1-649 TKC; 
[a kilometres | 4940916 TM Turkmenistan Ashgabat AS Am TMT Manat 993 4444. 
a kilometres | 77804122 TR Turkey Ankara AS :tr TRY Lira 90 HHH 
arer A rnin = rRNA ee uM. 
其 
E E 
图 2.8 
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2.8 ”本章 小 结 


成 功 了 ! 我 们 完成 了 第 一 个 可 以 工作 的 数据 抓 取 疏 虫 。 


2.8 ”本章 小 结 





在 本 章 中 , 我 们 介绍 了 几 种 抓 取 网 页 数据 的 方法 。 正 则 表达 式 在 一 次 性 数 
据 抓 取 中 非常 有 用 ， 此 外 还 可 以 避免 解析 整个 网 页 带 来 的 开销 ; 
BeautifulSoup 提供 了 更 高 层次 的 接口 ， 同 时 还 能 避免 过 多 麻烦 的 依赖 。 
不 过 ,通常 情况 下 ，1lxml 是 我 们 的 最 佳 选 择 ， 因 为 它 速度 更 快 ， 功 能 更 加 丰 
富 ， 因 此 在 接 下 来 的 例子 中 我 们 将 会 使 用 1xml 模块 进行 数据 抓 取 。 

我 们 还 学 习 了 如 何 使 用 浏览 器 工具 和 控制 台 查 看 HTML 页 面 ， 以 及 定义 
CSS 选择 器 和 XPath 选择 器 来 匹配 和 抽取 已 下 载 页 面 中 的 内 容 。 

在 下 一 章 中 , 我 们 将 会 介绍 缓存 技术 ,这样 就 能 把 网 页 保存 下 来 ,只 在 的 
虫 第 一 次 运行 时 才 会 下 载 网 页 。 
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下 载 缓存 


在 上 一 章 中 , 我 们 学 习 了 如 何 从 已 朴 取 到 的 网 页 中 抓 取 数据 ， 以 及 将 抓 取 
结果 保存 到 CSV 文件 中 。 如 果 我 们 还 想 抓 取 另 外 一 个 字段 ， 比 如 国旗 图 片 的 
URL， 那 么 又 该 怎么 做 呢 ? 要 想 抓 取 这 些 新 增 的 字段 ， 我 们 需要 重新 下 载 整 
个 网 站 。 对 于 我 们 这 个 小 型 的 示例 网 站 而 言 ， 这 可 能 不 算 特 别 大 的 问题 。 但 
是 ， 对 于 那些 拥有 数 百 万 个 网 页 的 网 站 来 说 ， 重 新 爬 取 可 能 需要 耗费 几 个 星 
期 的 时 间 。 疏 虫 避免 此 类 问题 的 方式 之 一 是 从 开始 时 就 缓存 被 朴 取 的 网 页 ， 
这 样 就 可 以 让 每 个 网 页 只 下 载 一 次 。 

在 本 章 中 ， 我 们 将 介绍 几 种 使 用 网 络 爬 虫 实现 该 目标 的 方式 。 

在 本 章 中 ， 我 们 将 介绍 如 下 主题 ; 

何 时 使 用 缓存 ; 

为 链接 爬虫 添加 缓存 文 持 ; 
测试 缓存 ; 

使 用 requests-cache; 


实现 Redis ZIF -o 
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3.1 何 时 使 用 缓存 


缓存， 还 是 不 缓存 ”对 于 很 多 程序 员 、 数 据 科 学 家 以 及 进行 网 络 抓 取 的 人 
来 说 ， 是 一 个 需要 回答 的 问题 。 在 本 章 中 ， 我 们 将 介绍 如 何 对 网 络 怜 虫 使 用 
缓存 ， 不 过 你 是 否 应 当 使 用 缓存 呢 ? 

如 果 你 需要 执行 一 个 大 型 假 取 工作 ， 那 么 它 可 能 会 由 于 错误 或 异常 被 中 
断 ， 绥 存 可 以 帮助 你 无 须 重 新 爬 取 那些 可 能 已 经 抓 取 过 的 页 面 。 缓 存 还 可 以 
让 你 在 离线 时 访问 这 些 页 面 ( 出 于 数据 分 析 或 开发 的 目的 )。 

不 过 ,如 果 你 的 最 高 优先 级 是 获得 网 站 最 新 和 当前 的 信息 , 那 此 时 缓存 就 
没有 意义 。 此 外 ， 如 果 你 没有 计划 实现 大 型 或 可 重复 的 爬虫 ， 那 么 可 能 只 需 
要 每 次 去 抓 取 页 面 即 可 。 

在 开始 实现 之 前 ,你 可 能 想 要 简要 了 解 一 下 正在 抓 取 的 页 面 多 久 会 发 生变 
更 ， 或 是 你 应 该 多 久 清 空 缓存 并 抓 取 新 页 面 ， 不 过 首先 让 我 们 学 习 如 何 使 用 
缓存 ! 






































3.2 ”为 链接 拒 虫 添加 缓存 支持 








要 想 文 持 缓存 ， 我 们 需要 修改 第 1 章 中 编写 的 download 函数 ， 使 其 在 
URL 下 载 之 前 进行 缓存 检查 。 另 外 ， 我 们 还 需要 把 限 速 功能 移 至 函数 内 部 ， 
只 有 在 真正 发 生 下 载 时 才 会 触发 限 速 ， 而 在 加 载 缓存 时 不 会 触发 。 为 了 避免 
每 次 下 载 都 要 传 入 多 个 参数 ,我 们 借 此 机 会 将 download 函数 重 构 为 一 个 类 ， 
这 样 只 需 在 构造 方法 中 设置 参数 ， 就 能 在 后 续 下 载 时 多 次 复 用 。 下 面 是 文 持 
了 缓存 功 能 的 代码 实现 。 























from chpl.throttle import Throttle 
from random import choice 


import requests 
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class Downloader: 








def init (self, delay-5, user agent-'wswp', proxies-None, cache={}): 
self.throttle = Throttle(delay) 
self.user agent - user agent 





self.proxies - proxies 





self.num retries = None # we will set this per request 





self.cache = cache 
def call (self, url, num retries-2): 
self.num retries - num retries 

Crys 
result = self.cache[url] 
print('Loaded from cache:', url) 

except KeyError: 
result = None 





if result and self.num retries and 500 <= result['code'] < 600: 
# server error so ignore result from cache 
# and re-download 
result = None 
if result is None: 
# result was not loaded from cache 
# so still need to download 
self.throttle.wait (url) 
proxies = choice(self.proxies) if self.proxies else None 








headers = ('User-Agent': self.user agent] 
result = self.download(url, headers, proxies) 
if self.cache: 

# save result to cache 

self.cache[url] = result 





return result['html'] 
def download(self, url, headers, proxies, num retries): 


return ('html': html, 'code': resp.status code ] 


€ 下 载 类 的 完整 源码 可 以 在 本 书 源码 文件 的 chp3 文件 夹 中 找到 ， 其 名 为 


downloader.py. 


前 面 代 码 中 的 Download 类 有 一 个 比较 有 意思 的 部 分 , 那 就 是 _cal1 - 
特殊 方法 ， 在 该 方法 中 我 们 实现 了 下 载 前 检查 缓存 的 功能 。 该 方法 首先 会 检 
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fr URL 之 前 是 否 已 经 放 入 缓存 中 。 默 认 情 况 下 ， 绥 存 是 一 个 Python 字典 。 
如 果 URL 已 经 被 缓存 , 则 检查 之 前 的 下 载 中 是 否 遇 到 了 服务 器 端 错误 。 最 后 ， 
如 果 也 没有 发 生 过 服务 器 端 错误 ， 则 表明 该 缓存 结果 可 用 。 如 果 上 述 检查 中 
的 任何 一 项 失败 , 都 需要 正常 下 载 该 URL, 然后 将 得 到 的 结果 添加 到 缓存 中 。 

这 里 的 download 方法 和 之 前 的 download 函数 基本 一 样 ， 只 是 现在 返 
回 了 HTTP 状态 码 ， 以 便 在 缓存 中 存储 错误 码 。 此 外 ， 这 里 不 再 调用 自身 并 
检测 num retries, 而 是 先 减 少 self .num retries, 如 果 还 有 重 试 次 数 
剩余 的 话 ， 则 递归 使 用 self .download。 当 然 ， 如 果 你 只 需要 一 个 简单 的 
下 载 功能 ， 而 不 需要 限 速 或 缓存 的 话 ， 可 以 直接 调用 该 方法 ， 这 样 束 不 会 通 
Ho cal 方法 调用 了 。 

而 对 于 cache 类 ， 我 们 可 以 通过 调用 result = cache[url] 从 cache 
中 加 载 数据 ， 并 通过 cache [url] = result 问 cache 中 保存 结果 ， 这 是 
个 来 自 Python 内 置 字典 数据 类 型 的 便捷 接口 。 为 了 文 持 该 接口 ， 我 们 的 cache 
类 需要 定义 ”getitem () 和 setitem () 这 两 个 特殊 的 类 方法 。 

此 外 ,为 了 支持 缓存 功能 ,链接 扑 虫 的 代码 也 需要 进行 一 些微 调 , 包括 添 
加 cache 参数 、 移 除 限 速 以 及 将 download 函数 蔡 换 为 新 的 类 等 , 如 下 面 的 
代码 所 示 。 




























































































def link crawler(..., num retries-2, cache-í(]): 
crawl queue - [seed url] 
seen = (seed url: 0] 


rp = get robots(seed url) 





D = Downloader (delay-delay, user agent-user agent, proxies-proxies, 
cache-cache) 


while crawl queue: 
url = crawl queue.pop() 
# check url passes robots.txt restrictions 
if rp.can fetch(user agent, url): 
depth = seen.get(url, 0) 
if depth -- max depth: 


continue 
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html = D(url, num retries-num retries) 
if not html: 


continue 


你 会 发 现 num retries 现在 链接 到 了 我 们 的 调用 中 。 这 样 我 们 就 可 以 
基于 每 个 URL 使 用 请 求 重 试 次 数 了 。 如 果 我 们 简单 地 使 用 相同 的 重 斌 次数， 
而 不 重 设 self .num retries HE, 一 旦 某 个 页 面 出 现 500 错误 ， 就 会 用 
尽 重 试 次 数 。 

你 可 以 在 本 书 源码 中 的 chp3 文件 夹 中 再 次 查看 完整 代码 ， 其 名 为 
advanced link crawler.py。 现 在 ,这 个 网 络 息 虫 的 基本 架构 已 经 准备 好 
了 ， 下 面 就 要 开始 构建 实际 的 缓存 了 。 




















3.3 ”磁盘 缓存 











KART TRER, 我 们 先 来 尝试 最 容易 想到 的 方案 , 将 下 载 到 的 网 页 存 
储 到 文件 系统 中 。 为 了 实现 该 功能 ,我们 需要 将 URL 安全 地 映射 为 跨 平 台 的 























文件 名 。 表 3.1 所 示 为 几 大 主流 文件 系统 的 限制 。 
表 3.1 
操作 系统 文件 系统 非法 文件 名 字符 文件 名 最 大 长 度 
Linux Ext3/Ext4 / 和 NO 255 字 节 
OSX HFS Plus :和 \0 255 个 UTF-16 编码 单元 
Windows NTFS WA Sy | 255 个 字符 




















为 了 保证 在 不 同文 件 系 统 中 , 我 们 的 文件 路 径 都 是 安全 的 , 就 需要 限制 其 
只 能 包含 数字 、 字 母 和 基本 符号 ， 并 将 其 他 字符 蔡 换 为 下 划 线 ， 其 实现 代码 
如 下 所 示 。 














>>> import re 
>>> url = 'http://example.python-scraping.com/default/view/Australia-1' 
>>> re.sub('[^/0-9a-zA-ZN-.,; ]', ' ', url) 
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'http //example.python-scraping.com/default/view/Australia-1' 


此 外 , 文件 名 及 其 父 目 录 的 长 度 需 要 限制 在 255 个 字符 以 内 (实现 代码 如 
下 )， 以 满足 表 3.1 "PAS HB HERE DR GG 











reni 
o 





>>> filename = re.sub('[^/0-9a-zA-ZN-.,; ]', ' ', url) 

>>> filename = '/'.join(segment[:255] for segment in filename.split('/')) 
>>> print(filename) 

'http //example.python-scraping.com/default/view/Australia-1' 


由 于 这 里 的 URL 部 分 没有 超过 255 个 字符 ， 因 此 文件 路 径 不 需要 改变 。 

还 有 一 种 边界 情况 需要 考虑 ， 那 就 是 URL 路 径 可 能 会 以 斜 杠 〈/) 结尾 ， 此 时 
斜 杠 后 面 的 空 字符 串 就 会 成 为 一 个 非法 的 文件 名 。 但 是 ， 如 果 移 除 这 个 斜 杠 ， 
使 用 其 父 字 符 串 作为 文件 名 ， 又 会 造成 无 法 保存 其 他 URL 的 问题 。 考 虑 下 面 
这 两 个 URL: 



































€ nttp://example.python-scraping.com/index/ 














€ nttp://example.python-scraping.com/index/1 

如 果 我 们 希望 这 两 个 URL 都 能 保存 下 来 ， 就 需要 以 index 作为 目录 名 ， 
以 文件 名 1 作为 子 页 面 。 对 于 像 第 一 个 URL 路 径 这 样 以 斜 杠 结尾 的 情况 ， 这 
里 使 用 的 解决 方案 是 添加 index.html 作为 其 文件 名 。 同 样 地 ， 当 URL 路 
径 为 空 时 也 需要 进行 相同 的 操作 。 为 了 解析 URL， 我 们 需要 使 用 urlsplit 
函数 ， 将 URL 分 割 成 几 个 部 分 。 
































>>> from urllib.parse import urlsplit 

>>> components = urlsplit('http://example.python-scraping.com/index/') 
>>> print(components) 

SplitResult(scheme-'http', netloc-'example.python-scraping.com', 


pathz'/index/', query='', fragment-'') 
>>> print(components.path) 
'/index/' 
































该 函数 提供 了 解析 和 处 理 URL 的 便捷 接口 。 下 面 是 使 用 该 模块 对 上 述 边 
界 情况 添加 index.html 的 示例 代码 。 
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>>> path = components.path 
>>> if not path: 


>>> path = '/index.html' 
>>> elif path.endswith('/'): 
>>> path += 'index.html' 


>>> filename = components.netloc + path + components .query 
>>> filename 
'example.python-scraping.com/index/index.html' 


根据 所 抓 取 网 站 的 不 同 ， 可 能 需要 修改 边界 情况 处 理 功 能 。 比 如 ， 由 于 
Web 服务 器 有 其 期 望 的 URL 传输 方式 ， 一 些 站 点 会 在 每 个 URL 后 添加 /。 对 
于 这 些 站 点 ， 你 可 能 只 需要 去 除 每 个 URL 尾部 的 斜 杠 即 可 。 再 次 重申 ， 你 需 
要 评估 并 更 新 网 络 怜 虫 的 代码 ， 以 最 佳 适 应 想 要 抓 取 的 网 站 。 


















































3.3.1 ”实现 磁盘 缓存 


上 一 节 中 ， 我 们 介绍 了 创建 基于 磁盘 的 缓存 时 需要 考虑 的 文件 系统 限制 ， 
包括 允许 使 用 哪些 字符 、 文 件 名 长 度 限制 ， 以 及 确保 文件 和 目录 的 创建 位 置 
不 同 。 把 URL 到 文件 名 的 这 些 映 射 逻 辑 与 代码 结合 起 来 ， 就 形成 了 磁盘 缓存 
的 主要 部 分 。 下 面 是 DiskCache 类 的 初始 实现 代码 。 















































import os 
import re 


from urllib.parse import urlsplit 


class DiskCache: 
def | init (self, cache dir-'cache', max len-255): 
self.cache dir - cache dir 


self.max len = max len 


def url to path(self, url): 
""" Return file system path string for given URL""" 
components = urlsplit(url) 
# append index.html to empty paths 
path = components.path 
if not path: 
path = '/index.html' 
elif path.endswith('/'): 
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path += 'index.html' 
filename = components.netloc + path + components.query 
f replace invalid characters 
filename = re.sub('[^/0-9a-zA-ZN-.,;  ]', ' ', filename) 
# restrict maximum number of characters 


filename - '/'.join(seg[:self.max len] for seg in 


filename.split('/')) 


return os.path.join(self.cache dir, filename) 





在 上 面 的 代码 中 , 构造 方法 传 入 了 一 个 用 于 设 定 缓存 位 置 的 参数 ， 然 后 在 
url to path 方法 中 应 用 了 前 面 讨论 的 文件 名 限制 。 现 在 ， 我 们 还 缺少 根 


据 文件 名 存 取 数 据 的 方法 。 
下 面 的 代码 实现 了 这 两 个 缺失 的 方法 。 

















import json 


class DiskCache: 


def 





| getitem (self, url): 


"""Load data from disk for given URL""" 
path = self.url to path(url) 
if os.path.exists (path): 
return json.load(path) 
else: 
# URL has not yet been cached 
raise KeyError(url + ' does not exist!) 








ft setitem() 


安全 文件 名 


, Setitem (self, url, result): 
"""Save data to disk for given url""" 
path = self.url to path(url) 


folder = os.path.dirname (path) 





if not os.path.exists(folder): 
os.makedirs(folder) 
json.dump(result, path) 


H, XE url to path () 方 法 将 URL 映射 为 




















， 在 必要 情况 下 还 需要 创建 父 目录 。 这 里 使 用 的 json 模块 会 对 

















Python 进行 序列 化 处 理 ， 然 后 保存 到 磁盘 中 。 而 在 ”getitem  () 方 法 中 ， 
首先 会 将 URL 映射 为 安全 文件 名 。 如 果 文 件 存 在 , 则 使 用 json 加 载 其 内 容 ， 
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并 恢复 其 原始 数据 类 型 ， 如 果 文 件 不 存在 〈 即 缓存 中 还 没有 该 URL 的 数据 )， 


则 会 抛 出 KeyError 异常 。 





3.8.2 ”缓存 测试 

现在 , dA DEDERIS dS cache 关键 词 参数 , 来 检验 DiskCache 类 。 
该 类 的 完整 源 代码 位 于 本 书 源码 的 chp3 文件 夹 中 ， 其 名 为 diskcache .py,， 
并 且 在 任何 Python 解释 器 中 均 可 以 测试 该 缓存 。 








IPython 是 编写 和 解释 Python 的 一 套 不 错 的 工具 ， 尤 其 是 使 用 IPython 
magic commands 进行 Python 调试 时 。 你 可 以 使 用 pip 或 conda 安装 


IPython (pip install ipython), 





下 面 ， 我 们 使 用 Python 帮助 我 们 对 请 求 计时 ， 以 测试 其 性 能 。 





In [1]: from chp3.diskcache import DiskCache 
In [2]: from chp3.advanced link crawler import link crawler 


In [3]: $time link crawler('http://example.python-scraping.com/', 
'/(index|view)', cache-DiskCache()) 

Downloading: http://example.python-scraping.com/ 

Downloading: http://example.python-scraping.com/index/1 
Downloading: http://example.python-scraping.com/index/2 


Downloading: http://example.python-scraping.com/view/Afghanistan-1 
CPU times: user 300 ms, sys: 16 ms, total: 316 ms 
Wall time: lmin 44s 


第 一 次 执行 该 命令 时 ， 由 于 缓存 为 空 ,因此 网 页 会 被 正常 下 载 。 但 当 我 们 
第 二 次 执行 该 脚本 时 ， 网 页 加 载 自 缓存 中 ， 扑 虫 应 该 更 快 完成 执行 ， 其 执行 
结果 如 下 所 示 。 














In [4]: $time link crawler('http://example.python-scraping.com/', 
'/ (index|view)', cache-DiskCache()) 
Loaded from cache: http://example.python-scraping.com/ 
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Loaded from cache: http://example.python-scraping.com/index/1 
Loaded from cache: http://example.python-scraping.com/index/2 


Loaded from cache:http://example.python-scraping.com/view/Afghanistan-1 
CPU times: user 20 ms, sys: 0 ns, total: 20 ms 
Wall time: 1.1 s 


TU EB T — IE, MERRER T o 2AEHETJTRHI, 我 计算 机 中 
HER FRETET 1 分 钟 ， 而 在 第 三 次 全 部 使 用 缓存 时 ， 该 耗 时 只 有 1.1 
秒 〈 比 第 一 次 仆 取 快 了 大 约 94 fi D. 

由 于 硬件 和 网 络 连 接 速 度 的 差异 ,在 不 同 计 算 机 中 的 准确 执行 时 间 也 会 有 
所 区 别 。 不 过 毋庸 置疑 的 是 ， 磁 盘 缓存 比 通 过 HTTP 下 载 速 度 更 快 。 





























3.8.3 "peius" i] 


为 了 最 小 化 缓存 所 需 的 磁盘 空间 ， 我 们 可 以 对 下 载 得 到 的 HTML 文件 进 
行 压缩 处 理 。 处 理 的 实现 方法 很 简单 ， 只 需 在 保存 到 磁盘 之 前 使 用 zlib Hk 
缩 序列 化 字符 串 即 可 。 使 用 当前 实现 有 助 于 人 类 阅读 这 些 文 件 。 我 可 以 阅读 
任意 缓存 页 面 ， 并 以 JSON 格式 查看 字典 。 如 果 需 要 的 话 ， 我 还 可 以 复 用 这 
些 文件 ， 将 它们 移 至 不 同 的 操作 系统 中 ， 用 于 非 Python 代码 。 添 加 压缩 将 使 
这 些 文件 不 再 打开 即 可 阅读 ， 而 且 当 我 们 通过 其 他 编码 语言 使 用 下 载 的 文件 
时 ， 可 能 会 引入 一 些 编码 问题 。 为 了 能 够 启用 和 关闭 压缩 ， 我 们 将 其 添加 到 
构造 函数 中 ， 并 与 文件 编码 〈 默 认 值 设 为 UTF-8) 一 起 使 用 。 















































class DiskCache: 
def | init (self, cache dir-'../data/cache', max len-255, 
compress-True, 
encoding-'utf-8'): 


self.compress compress 


self.encoding encoding 








然后 ， 需 要 更 新 _getitem 和 setitem 方法 。 


* in  getitem method for DiskCache class 
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mode = ('rb' if self.compress else 'r') 
with open(path, mode) as fp: 
if self.compress: 
data = zlib.decompress(fp.read()).decode (self.encoding) 
return json.loads (data) 
return json.load(fp) 


* in  setitem method for DiskCache class 
mode = ('wb' if self.compress else 'w') 
with open(path, mode) as fp: 
if self.compress: 
data = bytes(json.dumps(result), self.encoding) 
fp.write (zlib.compress (data)) 
else: 
json.dump(result, fp) 


压缩 完 所 有 网 页 之 后 ， 缓 存 大 小 从 416KB 下 降 到 156KB， 而 在 我 的 计算 
机 上 疏 取 缓存 示例 网 站 的 时 间 是 260 毫秒 。 

根据 你 的 操作 系统 和 Python 安装 的 不 同 ， 等 待 时 间 可 能 会 略 长 于 未 压缩 
的 缓存 (我 这 里 实际 更 短 )。 根 据 约束 的 优先 级 不 同 ( 速 度 与 内 存 、 调 试 的 方 
便 性 等 )， 需 要 对 你 的 肘 虫 是 否 使 用 压缩 做 出 明智 而 慎重 的 决策 。 

你 可 以 在 本 书 代码 库 中 查看 更 新 了 的 磁盘 缓存 代码 ， 它 位 于 本 书 源码 的 
chp3 文件 夹 中 ， 其 名 为 diskcache.py. 


3.3.4 清理 过 期 数据 


当前 版 本 的 磁盘 缓存 使 用 键 值 对 的 形式 在 磁盘 上 保存 缓存 ,未 来 无 论 何 时 
请 求 都 会 返回 结果 。 对 于 缓存 网 页 而 言 ， 该 功能 可 能 不 太 理想 ， 因 为 网 页 内 
容 随 时 都 有 可 能 发 生变 化 ， 存 储 在 缓存 中 的 数据 存在 过 期 风险 。 本 节 中 ， 我 
们 将 为 缓存 数据 添加 过 期 时 间 ， 以 便 疏 虫 知道 何 时 需要 下 载 网 页 的 最 新 版 本 。 
在 缓存 网 页 时 支持 存储 时 间 戳 的 功能 也 很 简单 。 


下 面 的 代码 为 该 功能 的 实现 。 















































from datetime import datetime, timedelta 
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class DiskCache: 








def | init  (..., expires-timedelta (days-30)): 
self.expires - expires 
## in  getitem X for DiskCache class 


with open(path, mode) as fp: 
if self.compress: 
data = zlib.decompress(fp.read()).decode (self.encoding) 
data = json.loads (data) 
else: 





data = json.load(fp) 
exp date - data.get('expires') 


if exp date and datetime.strptime(exp date, 
'5SY-$m-$dT$H:9$M:$8') <= 
datetime.utcnow(): 
print('Cach xpired!', exp date) 








raise KeyError(url + ' has expired.'") 
return data 
## in  setitem for DiskCache class 





result['expires'] = (datetime.utcnow() 十 
self.expires).isoformat(timespec-'seconds') 


在 构造 方法 中 , 我 们 使 用 timedelta 对 象 将 默认 过 期 时 间 设 置 为 30 天 。 
Au. fE set ”方法 中 ， 把 过 期 时 间 戳 作为 键 保 存 到 结果 字典 中 ;而 在 
_ get 方法 中 ,对 比 当前 UTC 时 间 和 缓存 时 间 , 检查 是 否 过 期 。 为 了 测试 
过 期 时 间 功 能 ， 我 们 可 以 将 其 缩短 为 5 秒 ， 如 下 所 示 。 




















>>> cache = DiskCache (expires-timedelta (seconds-5)) 
>>> url = 'http://example.python-scraping.com' 

>>> result = ('html': '...'} 

>>> cache[url] = result 

>>> cache[url] 

('html': '...'} 

>>> import time; time.sleep(5) 

>>> cache[url] 

Traceback (most recent call last): 


KeyError: 'http://example.python-scraping.com has expired' 
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和 预期 一 样 ， 缓存 结果 最 初 是 可 用 的 ,经 过 5 秒 的 睡眠 之 后 ， 再 次 调用 同 
一 URL， 则 会 执 出 KeyError 异常 ， 也 就 是 说 缓存 下 载 失 效 了 。 


3.3.5 ”磁盘 缓存 缺点 


基于 磁盘 的 缓存 系统 比较 容易 实现 ,无须 安装 其 他 模块 ， 并 且 在 文件 管理 
器 中 就 能 查看 结果 。 但 是 ， 该 方法 存在 一 个 缺点 ， 即 受制 于 本 地 文件 系统 的 
限制 。 本 章 早 些 时 候 , 为 了 将 URL 映射 为 安全 文件 名 , 我 们 应 用 了 多 种 限制 ， 
然而 该 系统 又 会 引发 男 一 个 问题 , 那 就 是 一 些 URL 会 被 映射 为 相同 的 文件 名 。 
比如 ， 在 对 如 下 几 个 URL 进行 字符 蔡 换 之 后 就 会 得 到 相同 的 文件 名 。 







































































€ http://example.com/?a+b 
€ nttp://example.com/?a*b 
€ nttp://example.com/?a-b 
€ nttp://example.com/?a!b 























这 就 意味 着 , 如 果 其 中 一 个 URL 生成 了 缓存 , 其 他 3 个 URL 也 会 被 认为 
已 经 生成 缓存 ， 因 为 它们 映射 到 了 同一 个 文件 名 。 另 外 ， 如 果 一 些 长 URL 只 
在 第 255 个 字符 之 后 存在 区 别 ， 截 断后 的 版 本 也 会 被 映射 为 相同 的 文件 名 。 
这 个 问题 非常 重要 ， 因 为 URL 的 最 大 长 度 并 没有 明确 限制 。 尽 管 在 实践 中 
URL 很 少 会 超过 2000 个 字符 ， 并 且 早 期 版 本 的 正 浏览 器 也 不 支持 超过 2083 
个 字符 的 URL。 

避免 这 些 限 制 的 一 种 解决 方案 是 使 用 URL. 的 哈 希 值 作 为 文件 名 。 尽 管 该 
方法 可 以 带 来 一 定 改善 ， 但 是 最 终 还 是 会 面临 许多 文件 系统 具有 的 一 个 关键 
问题 ， 那 就 是 每 个 卷 和 每 个 目录 下 的 文件 数量 是 有 限制 的 。 如 果 绥 存 存 储 在 
FAT32 文件 系统 中 , 每 个 目录 的 最 大 文件 数 是 65$535。 该 限制 可 以 通过 将 缓存 
分 割 到 不 同 目录 来 避免 ， 但 是 文件 系统 可 存储 的 文件 总 数 也 是 有 限制 的 。 我 
使 用 的 sxt4 分 区 目前 支持 略 多 于 3100 万 个 文件 ， 而 一 个 大 型 网 站 往往 拥有 
超过 1 亿 个 网 页 。 很 遗憾 ，Diskcache 方法 想 要 通用 的 话 存在 太 多 限制 。 要 
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想 避 免 这 些 问题 ， 我 们 需要 把 多 个 缓存 网 页 合并 到 一 个 文件 中 ， 并 使 用 B+ 树 
或 类 似 数 据 结构 进行 索引 。 我 们 并 不 会 自己 进行 实现 ， 而 是 在 下 一 节 中 使 用 
己 有 的 键 值 对 存储 。 














3.4” 键 值 对 存储 缓存 








为 了 避免 基于 磁盘 的 缓存 已 知 的 局 限 ,我 们 将 在 已 有 的 刍 值 对 存储 系统 上 
构建 缓存 。 在 爬 取 时 ， 我 们 可 能 需要 缓存 大 量 数据 ， 但 又 不 需要 任何 复杂 的 
连接 ， 因 此 我 们 将 使 用 高 效 的 键 值 对 存储 ， 它 要 比 传统 关系 型 数据 库 甚 至 大 
多 数 NoSQL 数据 库 更 加 易于 扩展 。 具 体 来 说 ,我 们 将 使 用 非常 流行 的 键 值 对 
存储 Redis 作为 我 们 的 缓存 。 


3.4.1 键 值 对 存储 是 什么 


键 值 对 存储 类 似 于 Python 字典 , 存储 中 的 每 个 元 素 都 有 一 个 键 和 一 个 值 。 
在 设计 DiskCache 时 ， 键 值 对 模型 可 以 很 好 地 解决 该 问题 。Redis 实际 上 表 
示 REmote DIctionary Server( 远 程 字典 服务 器 )。Redis 最 初 发 布 于 2009 年 ， 
其 API 支持 许多 不 同 语言 (包括 Python) 的 客户 端 。 它 区 别 于 一 些 更 简单 的 
刍 值 对 存储 (如 memcache)， 因 为 它 的 值 可 以 是 几 种 不 同 的 结构 化 数据 类 型 。 
Redis 可 以 很 容易 地 通过 集群 进行 扩展 , 并 且 已 经 在 一 些 大 公司 (比如 Twitter) 
中 作为 海量 缓存 存储 使 用 ， 比 如 Twitter 的 一 个 B 树 拥 有 大 约 65TB 的 分 配 堆 
内 存 。 

对 于 你 的 抓 取 和 疏 取 需求 来 说 , 可 能 需要 为 每 个 文档 提供 更 多 的 信息 , 或 
是 需要 基于 文档 中 的 数据 进行 搜索 和 选择 。 对 于 这 些 情况 ， 我 推荐 使 用 基 
文档 的 数据 库 ， 例 如 ElasticSearch 或 MongoDB。 无 论 是 键 值 对 存储 ， 还 是 
基于 文档 的 数据 库 ， 与 使 用 模式 的 传统 SQL 数据 库 〈 例 如 PostgreSQL 和 
MySQL) 相 比 ， 都 能 以 更 加 清晰 简单 的 方式 ， 对 非 关 系 型 数据 进行 扩展 和 快 
速 查询 。 
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3.4.2 ”安装 Redis 


我 们 可 以 按照 Redis 官网 说 明 ， 通 过 编译 最 新 源码 的 方式 安装 Redis. Al 

果 你 使 用 的 是 Windows， 则 需要 使 用 MSOpenTech 的 项 目 安装 Redis, 或 是 简 

单 地 通过 虚拟 机 (使 用 Vagrant) 或 Docker 实例 的 方式 进行 安装 。 然 后 ， 需 要 
使 用 如 下 命令 单独 安装 Python 客户 端 。 











pip install redis 


如 果 想 要 测试 安装 是 否 正常 ， 可 以 在 本 地 启动 Redis (或 者 在 你 的 虚拟 机 
或 容器 中 )， 命 令 如 下 。 











$ redis-server 


你 将 看 到 一 些 文本 ,包括 版 本 号 以 及 Redis 标志 等 。 在 文本 最 后 ， 你 将 看 
到 类 似 如 下 的 消息 。 


1212:M 18 Feb 20:24:44.590 * The server is now ready to accept connections 
on port 6379 


一 般 情 况 下 ， 你 的 Redis 服务 器 将 使 用 相同 的 端口 ， 即 默认 端口 (6379). 
为 了 测试 Python 客户 端 并 连接 Redis， 我 们 可 以 使 用 Python 解释 器 (在 下 面 
的 代码 中 ， 我 使 用 了 Python), W FAR. 











In [1]: import redis 
In [2]: r = redis.StrictRedis (host-'localhost', portz6379, db=0) 


In [3]: r.set('test', 'answer') 
Out[3]: True 


In [4]: r.get('test') 
Out[4]: b'answer' 


在 前 面 的 代码 中 ,我 们 简单 地 连接 了 我 们 的 Redis 服务 器 ， 然 后 使 用 set 
命令 设置 了 一 个 键 为 'test'、 值 为 'answer' 的 记录 。 我 们 可 以 使 用 get du 
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如 果 想 要 查看 更 多 关于 如 何 设 置 Redis 作为 后 台 进 程 运行 的 选项 , 我 建议 使 用 
官方 的 Redis 快速 入 门 ， 或 是 使 用 你 喜欢 的 搜索 引擎 搜索 针对 特定 操作 系统 
或 安装 的 具体 说 明 。 


3.4.8 Redis 概述 








下 面 给 出 了 如 何 将 示例 网 站 数据 存 入 Redis， 而 后 加 载 它 的 例子 。 


In [5]: 


url - 'http://example.python-scraping.com/view/United-Kingdom-239' 


In [6]: html = '...' 


In [7]: 


In [8]: 
Out[8]: 


In [9]: 
Out[9]: 


results - ('html': html, 'code': 200] 
r.set(url, results) 

True 

r.get(url) 

b"('html': '...', 'code': 200)" 


从 get 输出 中 可 以 看 到 ， 我 们 从 Redis 存储 中 接收 到 的 是 bytes 类 型 ， 
即使 我 们 揪 入 的 是 字典 或 字符 串 。 我 们 可 以 通过 使 用 json 模块 ， 按 照 对 于 





DiskCache 


如 果 我 


In [10] : 
Out [10] : 


In [11]: 
Out[11]: 


MEH 


























类 相同 的 方式 管理 这 些 序列 化 数据 。 





们 需要 更 新 URL 的 内 容 ， 会 发 生 什 么 呢 ? 
r.set(url, ('html': 'new html!', 'code': 200}) 
True 
r.get(url) 
b"('html': 'new html1!', 'code': 200)" 





的 输出 中 可 以 看 到 , Redis 的 set di H Zé fij ROS ss Y 2 BU JH 


3c T KDA 4s t hioc FER f Sf te ole det ers ORE TIR RU 
我 们 只 需要 每 个 URL 有 一 个 内 容 集合 即 可 ,因此 它 能 够 很 好 地 映射 为 键 值 对 
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存储 。 
让 我 们 来 看 一 下 存储 里 有 什么 ， 并 且 清 除 不 需要 的 数据 。 








In [12]: r.keys() 
Out[12]: [b'test', 
b'http://example.python-scraping.com/view/United-Kingdom-239'] 


In [13]: r.delete('test') 
Out[13]: 1 


In [14]: r.keys() 
Out[14]: [b'http://example.python-scraping.com/view/United-Kingdom-239'] 


keys 方法 返回 了 所 有 可 用 键 的 列表 , 而 delete 方法 可 以 让 我 们 传递 一 
个 (或 多 个 ) 键 并 从 存储 中 删除 它们 。 我 们 还 可 以 删除 所 有 的 键 ， 如 下 所 示 。 























In [15]: r.flushdb() 
Out[15]: True 


In [16]: r.keys() 
Out[16]: [] 


Redis 还 有 很 多 命令 和 工具 ， 请 阅读 文档 以 进一步 了 解 。 现 在 ， 我 们 已 经 
具备 了 使 用 Redis 作为 后 端 ， 为 我 们 的 网 络 候 虫 创建 缓存 所 需 了 解 的 所 有 内 
FT. 








Python 的 Redis 客户 端 提供 了 良好 的 文档 ,以 及 多 个 在 Python 中 使 用 Redis 
的 用 例 (比如 PubSub 管道 或 作为 大 型 连接 池 )。Redis 的 官方 文档 中 有 
qb 一 个 包含 了 教程 、 、 参 考 以 及 用 例 的 长 列表 ， 因 此 如 果 你 想 要 了 解 如 
何 扩展 、 安 装 以 Redis 的 话 ， 我 推荐 你 从 这 里 开始 。 如 果 你 在 云 或 
服务 器 上 使 用 Redis 的 话 ， 不 要 忘记 对 你 的 Redis 实例 实施 安全 措施 ! 


3.4.4 Redis 缓存 实现 
现在 ， 我 们 已 经 准备 好 使 用 与 之 前 Diskcache 类 相同 的 类 接口 构建 
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import json 
from datetime import timedelta 
from redis import StrictRedis 


class RedisCache: 





def | init (self, client-None, expires=timedelta (days=30), 
encoding-'utf-8'): 
# if a client object is not passed then try 
f connecting to redis at the default localhost port 
self.client = StrictRedis(host-'localhost', port-6379, db=0) 
if client is None else client 





self.expires - expires 


self.encoding = encoding 





def | getitem (self, url): 
"""Load value from Redis for the given URL""" 





record = self.client.get (url) 
if record: 


return json.loads(record.decode(self.encoding)) 





else: 





raise KeyError(url + ' does not exist!) 


def | setitem (self, url, result): 
"""Save value in Redis for the given URL""" 





data = bytes(json.dumps(result), self.encoding) 





self.client.setex(url, self.expires, data) 





这 里 的 ”getitem 和  setitem 方法 与 前 一 节 中 关于 如 何在 
Redis 中 获取 及 设置 键 的 讨论 很 相似 ， 不 过 在 这 里 我 们 使 用 了 json 模块 控制 
序列 化 ， 并 使 用 了 setex 方法 ， 能 够 使 我 们 在 设置 键 值 时 附带 过 期 时 间 。 
setex 既 可 以 接受 datetime.timedelta， 也 可 以 接受 以 秒 为 单位 的 数 
值 。 这 是 一 个 非常 方便 的 Redis 功能 ， 可 以 在 指定 秒 数 后 自动 删除 记录 。 
这 就 意味 着 我 们 不 再 需要 像 DiskCache 类 那样 手工 检查 记录 是 否 在 我 们 
的 过 期 规则 内 。 让 我 们 使 用 20 秒 的 时 间 差 在 IPython 中 进行 党 试 ， 观 察 组 
存 过 期 。 
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In [1]: from chp3.rediscache import RedisCache 

In [2]: from datetime import timedelta 

In [3]: cache = RedisCache (expires-timedelta (seconds=20)) 
In [4]: cache['test'] = ('html': '...', 'code': 200] 


In [5]: cache['test'] 
Out[5]: ('code': 200, 'html': '...'] 


In [6]: import time; time.sleep(20) 
In [7]: cache['test'] 


KeyError Traceback (most recent call last) 


KeyError: 'test does not exist' 


结果 显示 我 们 的 缓存 可 以 按照 预期 工作 ， 可 以 在 JSON、 字 典 和 Redis 键 
值 对 存储 间 进 行 序列 化 和 反 序 列 化 操作 ， 并 且 能 够 对 结果 进行 过 期 处 理 





Ne 
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3.4.5 压缩 


要 想 完 全 对 比 该 缓存 功能 与 原始 的 磁盘 缓存 ， 我 们 需要 添加 最 后 一 个 功 
能 : 压缩。 压缩 的 实现 方式 类 似 于 磁盘 缓存 ， 先 对 数据 进行 序列 化 ， 然 后 使 
用 zlib 进行 压缩 ， 如 下 所 示 。 

















import zlib 


from bson.binary import Binary 


class RedisCache: 
def | init  (..., compress-True): 


self.compress - compress 


def | getitem (self, url): 
record = self.client.get (url) 








if record: 
if self.compress: 
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record = zlib.decompress (record) 





return json.loads(record.decode(self.encoding)) 
else: 





raise KeyError(url + ' does not exist!) 





def | setitem (self, url, result): 
data = bytes(json.dumps(result), self.encoding) 
if self.compress: 
data = zlib.compress (data) 





self.client.setex(url, self.expires, data) 


3.4.6 ”测试 缓存 


RedisCache 类 的 源码 可 以 在 本 书 源码 文件 中 的 chp3 文件 夹 中 找到 ， 


其 名 为 redqiscache.py。 和 Diskcache 一 样 , 该 缓存 也 可 以 在 任何 Python 











解释 器 中 使 用 链接 爬虫 来 进行 测试 。 在 这 里 ， 我 们 使 用 IPython， 以 便利 用 


命令 。 


time HB ^ 


In [1]: from chp3.advanced link crawler import link crawler 
In [2]: from chp3.rediscache import RedisCache 


In [3]: $time link crawler('http://example.python-scraping.com/', 
'/ (4ndex|view)', cache-RedisCache()) 

Downloading: http://example.python-scraping.com/ 

Downloading: http://example.python-scraping.com/index/1 
Downloading: http://example.python-scraping.com/index/2 


Downloading: http://example.python-scraping.com/view/Afghanistan-1 
CPU times: user 352 ms, sys: 32 ms, total: 384 ms 
Wall time: lmin 42s 


In [4]: $time link crawler('http://example.Python-scraping.com/', 
'/ (4àndex|view)', cache-RedisCache()) 

Loaded from cache: http://example.python-scraping.com/ 

Loaded from cache: http://example.python-scraping.com/index/1 
Loaded from cache: http://example.python-scraping.com/index/2 


Loaded from cache: http://example.python-scraping.com/view/Afghanistan-1 
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CPU times: user 24 ms, sys: 8 ms, total: 32 ms 
Wall time: 282 ms 


在 第 一 次 迭代 中 , 这 里 花费 的 时 间 与 DiskCache 基本 相同 。 不过, Redis 
的 速度 在 缓存 加 载 时 才能 真正 体现 出 来 ， 与 未 压缩 的 磁盘 缓存 系统 相 比 ， 有 
着 超过 3 倍 的 速度 增长 。 缓存 代 码 可 读 性 的 增加 ， 以 及 Redis 集群 在 高 可 用 性 
大 数据 解雇 方案 上 的 扩展 能 力 ， 则 是 锦上添花 。 
































3.4.7 ”探索 requests-cache 


有 时 ， 你 可 能 希望 缓存 内 部 使 用 了 requests 库 ， 或 者 你 可 能 不 希望 
里 缓存 类 来 自己 处 理 。 如 果 是 这 样 的 情况 ， 则 可 以 使 用 requests-cach 
这 个 不 错 的 库 ， 它 实现 了 一 些 不 同 的 后 端 选项 ， 用 于 为 requests 库 创 建 绥 
存 。 当 使 用 requests-cache 时 , 通过 requests 库 访问 URL 的 所 有 get 
请 求 都 会 先 检 查 缓存 ， 只 有 没 在 缓存 中 找到 的 页 面 才 会 请 求 。 

requests-cache 支持 多 种 后 端 ， 包 括 Redis、MongoDB (一 种 NoSQL 
数据 库 )、SQLite (一 种 轻 量 级 的 关系 型 数据 库 ) 以 及 内 存 〈 非 永久 保存 ， 
此 不 推荐 )。 由 于 我 们 已 经 安装 了 Redis， 因 此 我 们 将 使 用 它 作 为 我 们 的 后 端 。 
我 们 先 从 安装 这 个 库 开 始 。 


D 
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pip install requests-cache 

现在 ， 我 们 可 以 在 IPython 中 ， 使 用 一 些 简 单 的 命令 安装 并 测试 我 们 的 组 
存 了 。 

In [1]: import requests cache 

In [2]: import requests 

In [3]: requests cache.install cache (backend-'redis') 

In [4]: requests cache.clear() 


In [5]: url = 'http://example.python-scraping.com/view/United-Kingdom-239' 
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3.4” 键 值 对 存储 缓存 


In [6]: resp = requests.get(url) 


In [7]: resp.from cache 
Out[7]: False 


In [8]: resp = requests.get(url) 


In [9]: resp.from cache 
Out[9]: True 


如 果 我 们 使 用 它 来 代替 我 们 自己 的 缓存 类 的 话 ， 只 需 使 用 
install cache 命令 实例 化 缓存 ， 然 后 每 个 请 求 〈 只 要 我 们 使 用 了 
requests FE) 就 都 会 保存 在 Redis 后 端 中 了 。 我 们 同样 也 可 以 使 用 一 个 简 
单 的 命令 设置 过 期 时 间 。 








from datetime import timedelta 
requests cache.install cache (backend-'redis', 
xpire after-timedelta (days-30)) 


为 了 对 比 requests-cache 与 我 们 自己 的 实现 的 速度 , 我 们 需要 构建 新 
的 下 载 器 和 链接 爬虫 。 该 下 载 器 同样 实现 了 之 前 推荐 的 requests WHF, A 
允许 限 速 ， 其 文档 位 于 requests-cache 的 用 户 手册 中 ， 地 址 为 


https://requests-cache.readthedocs.io/en/latest/user 




















guide.html. 


要 想 查 看 完整 代码 , 可 以 访问 新 下 载 器 的 代码 地 址 以 及 新 的 链接 爬虫 的 地 
址 ,它们 位 于 本 书 源码 的 chp3 文件 夹 中 , 其 名 分 别 为 downloader requests | 
cache.py 和 requests cache link crawler.py。 我 们 可 以 使 用 IPython 
测试 它们 ， 以 对 比 性 能 。 





In [1]: from chp3.requests cache link crawler import link crawler 


In [3]: $time link crawler('http://example.python-scraping.com/', 
' / (4ndex|view)') 

Returning from cache: http://example.python-scraping.com/ 
Returning from cache: http://example.python-scraping.com/index/1 
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Returning from cache: http://example.python-scraping.com/index/2 


Returning from cache:http://example.python-scraping.com/view/Afghanistan-1 
CPU times: user 116 ms, sys: 12 ms, total: 128 ms 
Wall time: 359 ms 


可 以 看 到 ，requests-cache 解决 方案 的 性 能 略 低 于 我 们 自己 的 Redis 
方案 ， 不 过 它 的 代码 行 数 更 少 ， 速 度 依然 很 快 〈 远 超过 磁盘 缓存 方案 )。 尤 其 
是 当 你 使 用 可 能 在 内 部 使 用 requests 管理 的 其 他 库 时 , requests-cache 
的 实现 是 一 个 非常 不 错 的 工具 。 




















3.5 mM 





本 章 中 , 我 们 了 解 到 缓存 已 下 载 的 网 页 可 以 节省 时 间 , JP Bede VA E HNE 
取 网 站 所 耗费 的 带宽 。 不 过 ， 绥 存 页面 会 占用 磁盘 空间 ， 而 我 们 可 以 使 用 压 
缩 的 方式 缓解 一 些 空间 占用 。 此 外 , 在 类 似 Redis 的 现 有 存储 系统 的 基础 之 上 
创建 缓存 ， 可 以 有 效 避 免 速 度 、 内 存 以 及 文件 系统 的 限制 。 

下 一 章 中 ,我 们 将 为 肘 虫 添加 更 多 的 功能 ， 从 而 实现 并 发 下 载 网 页 ， 使 疏 
虫 运 行 得 更 快 。 

















Ws 
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并 发 下 载 











在 之 前 的 章节 中 , 我 们 的 爬虫 都 是 串 行 下 载 网 页 的 ,只 有 前 一 次 下 载 完成 
之 后 才 会 启动 新 下 载 。 在 爬 取 规模 较 小 的 示例 网 站 时 ， 串 行 下 载 尚 可 应 对 ， 
但 面 对 大 型 网 站 时 就 会 显得 捉襟见肘 了 。 在 爬 取 拥有 100 万 网 页 的 大 型 网 站 
时 ， 假 设 我 们 以 每 秒 一 个 网 页 的 速度 持续 下 载 ， 耗 时 也 要 超过 11 天 。 如 果 我 
们 可 以 同时 下 载 多 个 网 页 ， 那 么 下 载 时 间 将 会 得 到 显著 改善 。 

本 章 将 介绍 使 用 多 线程 和 多 进程 这 两 种 下 载 网 页 的 方式 , 并 将 它们 与 串 行 
下 载 的 性 能 进行 比较 。 

在 本 章 中 ， 我 们 将 会 介绍 如 下 主 

€ 100 万 个 网 页 ; 
PITER; 

Z REER, 
Z EEEE. 















































4.1 100 万 个 网 页 








想 要 测试 并 发 下 载 的 性 能 ， 最 好 要 有 一 个 大 型 的 目标 网 站 。 为 此 ， 我 们 将 
使 用 Alexa 提供 的 最 受 欢 迎 的 100 万 个 网 站 列表 ， 该 列表 的 排名 根据 安装 了 
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Alexa 工具 栏 的 用 户 得 出 。 尽 管 只 有 少数 用 户 使 用 了 这 个 浏览 器 插件 ， 其 数据 
并 不 权威 ， 但 它 能 够 为 我 们 提供 可 以 爬 取 的 大 列表 ， 对 于 这 个 测试 来 说 已 经 
足够 好 了 。 

我 们 可 以 通过 浏览 Alexa 网 站 获取 该 数据 。 此 外 ， 我 们 也 可 以 通过 
http://s3.amazonaws.com/ alexa-static/top-1m.csv.zip 直接 下 
载 这 一 列表 的 压缩 文件 ， 这 样 就 不 用 再 去 抓 取 Alexa 网 站 的 数据 了 。 











4.1.1 解析 Alexa 列表 


Alexa 网 站 列表 是 以 电子 表格 的 形式 提供 的 ， 表 格 中 包含 两 列 内 容 ， 分 别 
是 排名 和 域名 ， 如 图 4.1 所 示 。 











A | B 
1 google.com 
2 facebook.com 
3 youtube.com 
4 yahoo.com 
5 baidu.com 
6 wikipedia.org 
7 amazon.com 
8 twitter.com 
9 taobao.com 
10 qq.com 


图 4.1 








EO 





抽取 数据 包含 如 下 4 个 步骤 。 

l. FZ.zip 文件 。 

2. 从 .zip 文件 中 提取 出 CSV 文件 。 

3. 解析 CSV 文件 。 

4. 遍历 CSV 文件 中 的 每 一 行 ， 从 中 抽取 出 域名 数据 。 
下 面 是 实现 上 述 功能 的 代码 。 


import csv 


from zipfile import ZipFile 
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from io import BytesIO, TextlIOWrapper 
import requests 


resp = requests.get('http://s3.amazonaws.com/alexa-static/top-1m.csv.zip', 





stream-True) 
urls = [] # top 1 million URL's will be stored in this list 
with ZipFile(BytesIO(resp.content)) as zf: 
csv filename = zf.namelist()[0] 
with zf.open(csv filename) as csv file: 
for , website in csv.reader(TextlIOWrapper(csv file)): 
urls.append('http://' + website) 


你 可 能 已 经 注意 到 , 下 载 得 到 的 压缩 数据 是 在 使 用 BytesIO 类 封装 之 后 ， 








才 传 给 zipFile 的 。 这 是 因为 zijpFile 需要 一 个 类 似 文件 的 接口 ， 而 不 是 
原生 字 节 对 象 。 我 们 还 设置 了 stream=True， 帮 助 加 速 请 求 。 接 下 来 ， 我 
们 从 文件 名 列表 中 提取 出 CSV 文件 的 名 称 。 由 于 这 个 .zip 文件 中 只 包含 一 
个 文件 , 所 以 我 们 直接 选择 第 一 个 文件 名 即 可 。 然 后 , 使 用 TextIOWrapper 
读 取 CSV 文件 ， 它 将 协助 处 理 编码 和 读 取 问 题 。 该 文件 之 后 会 被 遍历 ， 并 将 
第 二 列 中 的 域名 数据 添加 到 URL 列表 中 。 为 了 使 URL 合法 ， 我 们 还 会 在 每 
个 域名 前 添加 http:// 协 议 。 
































要 想 在 之 前 开发 的 聆 虫 中 复 用 上 述 功能 ， 还 需 将 其 修改 为 一 个 简单 的 回 


调 类 。 


class AlexaCallback: 
def | init (self, max urls-500): 
self.max urls = max urls 
self.seed url - 
'http://s3.amazonaws.com/alexa-static/top-1m.csv.zip' 
self.urls = [] 





def — call (self): 
resp = requests.get(self.seed url, stream-True) 





with ZipFile(BytesIO(resp.content)) as zf: 
csv filename = zf.namelist()[0] 
with zf.open(csv filename) as csv file: 
for , website in csv.reader(TextlIOWrapper(csv file)): 
self.urls.append('http://' + website) 
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if len(self.urls) == self.ma 
break 


x urls: 


这 里 添加 了 一 个 新 的 输入 参数 max urls. HH T WEM Alexa 文件 中 提 
取 的 URL 数量 。 默 认 情 况 下 , 该 值 被 设置 为 500 个 URL, 这 是 因为 下 载 100 
万 个 网 页 的 耗 时 过 长 (正如 本 章 开 始 时 提 到 的 ， 串 行 下 载 需 要 花费 超过 11 














天 的 时 间 )。 


4.2 RITER 











现在 我 们 可 以 对 之 前 开发 的 链接 爬虫 进行 少量 修改 ， 使 用 AlexaCal1back 





串 行 下 载 Alexa 的 前 500 个 URL. 





为 了 更 新 链接 疏 虫 ， 现 在 需要 传 入 起 始 URL 或 起 始 URL 列表 。 


* In link crawler function 


if isinstance(start url, list): 
crawl queue - start url 
else: 
crawl queue - [start url] 

















我 们 还 需要 更 新 对 每 个 站 点 中 robots.txt 的 处 至 





EX. Ri 








] 使 用 一 个 简 


单 的 字典 来 存储 每 个 域名 的 解析 器 (参见 本 书 源码 文件 中 chp4 文件 夹 中 的 





advanced link crawler.py#L53-L72)。 我 们 还 需 处 理 如 下 + 











青 况 : RIDE 











到 的 URL 不 一 定 是 相对 路 径 , 甚至 部 分 是 无 法 访问 的 URL. 比如 包含 mailto: 








的 邮箱 地 址 或 包含 javascript: 的 事件 命令 。 此 外 ， 由 于 




















些 网 站 没有 











robots.txt 文件 , 或 是 URL 的 格式 存在 问题 ,因此 我 们 添加 了 一 些 额外 的 错 
误 处 理 代码 段 以 及 一 个 新 的 变量 no robots， 从 而 可 以 让 我 们 在 无 法 找到 
robots.txt 文件 时 ， 人 仍然 可 以 继续 爬 取 。 最 后 ， 我 们 添加 了 
socket .setdefaulttimeout (60)， 用 于 为 robotparser 以 及 第 3 章 中 












































Downloader 类 额外 的 timeout 参数 处 理 超时 。 
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处 理 本 例 的 主要 代码 位 于 本 书 源码 文件 的 chp4 文件 夹 中 , HAN advanced 
link_crawler.py。 新 的 爬虫 后 续 可 以 直接 被 AlexaCallback 使 用 ， 类 
似 如 下 所 示 ， 在 命令 行 中 运行 。 








python chp4/advanced link crawler.py 

Total time: 1349.7983705997467s 

查看 运行 在 文件 _main 区 域 的 代码 ， 可 以 发 现 我 们 使 用 了 '$^' 作 为 
模式 , 避免 收集 每 个 页 面 的 链接 。 你 也 可 以 尝试 使 用 ' .' 匹配 所 有 内 容 ， 扑 取 
每 个 页 面 上 的 所 有 链接 。( 警 告 ， 这 将 花费 很 长 时 间 ， 很 可 能 以 天 计 !) 

在 串 行 下 载 时 , 只 把 取 第 一 个 页 面 所 花费 的 时 间 和 预期 一 致 , 大 约 为 每 个 URL 
平均 2.7 秒 (包含 测试 robots .txt 文件 的 时 间 )。 因 为 你 的 网 络 运 营 商 速度 不 同 ， 
以 及 你 可 能 是 在 云 服务 器 上 运行 脚本 ， 因 此 你 可 能 会 得 到 速度 更 快 的 结果 。 





























4.3 Ziki 


现在 ， 我 们 将 串 行 下 载 网 页 的 爬虫 扩展 成 并 行 下 载 。 需 要 注意 的 是 ， 如 果 
小 用 这 一 功能 ， 多 线程 朴 虫 请 求 内 容 速度 过 快 ， 可 能 会 造成 服务 器 过 载 ， 或 
是 IP 地 址 被 封禁 。 

为 了 避免 这 一 问题 ， 我 们 的 爬虫 将 会 设置 一 个 delay 标识 ， 用 于 设 定 请 
求 同 一 域名 时 的 最 小 时 间 间 陋 。 

作为 本 章 示 例 的 Alexa 网 站 列表 ,由 于 包含 了 100 万 个 不 同 的 域名 ， 因 而 
不 会 出 现 该 问题 。 但 是 ， 当 你 以 后 爬 取 同一 域名 下 的 不 同 网 页 时 ， 就 需要 注 
意 两 次 下 载 之 间 至 少 需 要 1 秒 钟 的 延 时 。 
























































4.4 ”线程 和 进程 如 何 工作 


图 4.2 所 示 为 一 个 包含 有 多 个 线程 的 进程 的 执行 过 程 。 
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进程 


时 间 














图 4.2 


当 运 行 Python 脚本 或 其 他 计算 机 程序 时 ， 就 会 创建 包含 有 代码 、 状 态 以 
及 堆栈 的 进程 。 这 些 进程 通过 计算 机 的 一 个 或 多 个 CPU 核心 来 执行 。 不 过 ， 
同一 时 刻 每 个 核心 只 会 执行 一 个 线程 ， 然 后 在 不 同 进程 间 快 速 切 换 ， 这 样 就 
给 人 以 多 个 程序 同时 运行 的 感觉 。 同 理 ， 在 一 个 进程 中 ， 程 序 的 执行 也 是 在 
不 同 线程 间 进行 切换 的 ， 每 个 线程 执行 程序 的 不 同 部 分 。 

这 就 意味 着 当 一 个 线程 等 待 网 页 下 载 时 ， 进 程 可 以 切换 到 其 他 线程 执行 ， 
避免 浪 费 CPU 周期 。 因 此 ， 为 了 充分 利用 计算 机 中 的 所 有 计算 资源 尽 可 能 快 
地 下 载 数据 ， 我 们 需要 将 下 载 分 发 到 多 个 进程 和 线程 中 。 


4.4.1 实现 多 线程 爬虫 


幸运 的 是 ， 在 Python 中 实现 多 线程 编程 相对 来 说 比较 简单 。 我 们 可 以 保 
留 与 第 1 章 开 发 的 链接 疏 虫 类 似 的 队列 结构 ， 只 是 改 为 在 多 个 线程 中 局 动 爬 
虫 循环 ， 从 而 并 行 下 载 这 些 链 接 。 下 面 的 代码 是 修改 后 链接 爬虫 的 起 始 部 分 ， 
这 里 把 crawl 循环 移 到 了 函数 内 部 。 








import time 
import threading 
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SLEEP TIME = 1 


def threaded crawler(..., max threads-10, scraper callback-None): 





def process queue(): 
while crawl queue: 


下 面 是 threaded crawler 函数 的 剩余 部 分 ， 这 里 在 多 个 线程 中 局 动 


了 process_queue， 并 等 待 其 完成 。 


threads = [] 
while threads or crawl queue: 
# the crawl is still active 
for thread in threads: 
if not thread.is alive(): 





# remove the stopped threads 
threads.remove (thread) 
while len(threads) « max threads and crawl queue: 





can start some more threads 





thread - threading.Thread(target-process queue) 





set daemon so main thread can exit when receives ctrl-c 
hread.setDaemon (True) 
hread.start() 


ch coh 


hreads.append (thread) 
f all threads have been processed f$ sleep temporarily so CPU can 





for thread in threads: 








focus execution elsewhere 


hread.join() 














time.sleep(SLEEP TIME)) 


当 有 URL ER, EERE PREASA, ELBDASUZE 
EWA. EERIE, MRANA A u up DS URL 
时 ， 线 程 会 提前 停止 。 假 设 我 们 有 2 个 线程 以 及 2 个 待 下 载 的 URL。 当 第 
一 个 线程 完成 下 载 时 ， 待 爬 取 队列 为 空 ， 因 此 该 线程 退出 。 第 二 个 线程 稍 
后 也 完成 了 下 载 ， 但 又 发 现 了 男 一 个 待 下 载 的 URL。 此 时 thread 循环 注 
意 到 还 有 URL 需要 下 载 ， 并 且 线 程 数 未 达到 最 大 值 ， 因 此 它 又 会 创建 一 个 
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新 的 下 载 线程 。 

后 续 我 们 可 能 还 需要 为 该 多 线程 怜 虫 添 加 解析 。 为 此 , 我 们 可 以 使 用 返回 
的 HTML 为 函数 回调 添加 一 段 代码 。 我 们 可 能 希望 从 该 逻辑 或 抽取 中 获取 更 
多 链接 ， 因 此 我 们 还 需要 在 后 边 的 for 循环 中 扩展 我 们 解析 的 链接 。 














html = D(url, num retries-num retries) 





if not html: 
continue 
if scraper callback: 
links = scraper callback(url, html) or [] 
else: 
links = [] 


# filter for links matching our regular expression 





for link in get links(html) + links: 


完整 代码 可 以 在 本 书 源码 文件 中 chp4 文件 夹 中 的 threaded crawler.py 
中 查看 。 要 想 公平 测试 ， 还 需要 清洗 你 的 Rediscache, 或 者 使 用 一 个 不 同 
的 默认 数据 库 。 如 果 你 已 经 安装 了 redis-cli, 则 使 用 命令 行 可 以 很 容易 地 
实现 该 需求 。 











$ redis-cli 
127.0.0.1:6379» FLUSHALL 
OK 

127.0.0.1:6379» 


如 果 想 要 退出 ,可 以 使 用 通用 的 程序 退出 方式 (通常 为 Cr + C emd 
+ C)。 现 在 ， 让 我 们 测试 一 下 该 多 线程 版 本 链接 爬虫 的 性 能 ， 命 令 如 下 所 
Zh 











$ python code/chp4/threaded crawler.py 
Total time: 361.50403571128845s 


DMAKEUDERGAJNÉSURÉ main 区域 时 , 会 注意 到 你 可 以 很 方便 地 向 脚本 传 
递 参 数 ， 包 括 max threads 和 url pattern。 在 前 面 的 例子 中 ， 我 们 使 
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用 了 默认 的 max threads=5 以 及 url pattern-'$^'. 

由 于 我 们 使 用 了 5 个 线程 ， 因 此 下 载 速度 几乎 是 串 行 版 本 的 S 倍 。 同 样 ， 
你 的 结果 很 可 能 依赖 于 网 络 运营 商 , 或 是 你 的 脚本 运行 的 服务 器 。 在 4.5 节 会 
对 多 线程 性 能 进行 更 进一步 的 分 析 。 


4.4.2 ZHENA 


为 了 进一步 改善 性 能 ， 我 们 对 多 线程 示例 再 度 扩 展 ， 使 其 文 持 多 进程 。 目 
前 ， 疏 虫 队列 都 是 存储 在 本 地 内 存 当 中 的 ， 其 他 进程 都 无 法 处 理 这 一 爬虫 。 
为 了 解决 该 问题 ， 需 要 把 爬虫 队列 转移 到 Redis 当中 。 单独 存 储 队 列 ， 意 味 着 
即使 是 不 同 服务 器 上 的 讨 虫 也 能 够 协同 处 理 同一 个 朴 虫 任务 。 

如 果 想 要 拥有 更 加 健壮 的 队列 ， 则 需要 考虑 使 用 专用 的 分 布 式 任务 工具 ， 
比如 Celery。 不 过 ， 为 了 尽量 减少 本 书 中 介绍 的 技术 种 类 和 依赖 ， 我 们 在 这 
里 选择 复 用 Redis。 下 面 是 基于 Redis 实现 的 队列 代码 。 



























































# Based loosely on the Redis Cookbook FIFO Queue: 
* http://www.rediscookbook.org/implement a fifo queue.html 
from redis import StrictRedis 


class RedisQueue: 
""" RedisQueue helps store urls to crawl to Redis 

Initialization components: 

client: a Redis client connected to the key-value database for 
the web crawling cache (if not set, a localhost:60379 
default connection is used). 

db (int): which database to use for Redis 

queue name (str): name for queue (default: wswp) 





mn nm 

















def | init (self, client-None, db-0, queue name-'wswp'): 
self.client = (StrictRedis (host-'localhost', port-6379, db-db) 
if client is None else client) 
self.name = "queue:$s" $ queue name 
self.seen set = "seen:$s" $ queue name 
self.depth - "depth:$s" $ queue name 
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def'.- Jen 


(self): 


return self.client.llen(self.name) 








def push(self, element): 


"""Push an element to the tail of the queue""" 


if isinstance(element, list): 














lement = [e for in element if not self.already seen(e)] 
self.client.lpush(self.name, *element) 
self.client.sadd(self.seen set, *element) 

elif not self.client.already seen(element): 


sel 
sel 


def pop(sel 








f.client.lpush(self.name, element) 








f.client.sadd(self.seen set 





ijr 


;, element) 


"""Pop an element from the head of the queue""" 


return self.client.rpop(self.name) 








def already seen(self, lement): 
""" determine if an element has already been seen """ 





return self.client.sismember(self.seen set, element) 








def set depth(self, lement, depth): 
""" Set the seen hash and depth "" 


" 








self.client.hset(self.depth, element, depth) 





def get depth(self, lement): 
""" Get the seen hash and depth """ 








return self.client.hget(self.depth, element) 


可 以 看 到 在 前 面 的 Redisoueue 类 中 ,我 们 维护 了 几 个 不 同 的 数据 类 型 。 
首先 是 预期 中 的 Redis 列表 类 型 , 它 可 以 通过 1push 和 rpop 命令 进行 处 理 


其 队列 名 称 存储 在 self .name 属性 中 。 
接 下 来 是 Redis 集合 ， 其 功能 类 似 于 只 包含 唯一 成 员 的 Python 集合 。 集 

















` 








合 名 称 存储 在 self .seen set 中 ， 我 们 可 以 通过 sadd 和 sismember 77 


























法 进行 管理 (添加 新 键 以 及 测试 成 员 )。 





最 后 ， 我 们 把 深度 相关 的 功能 移 至 set depth 和 get depth 方法 中 ， 
它 使 用 了 标准 的 Redis 哈 希 表 ， 其 名 称 存储 在 self.depth 中 ， 每 个 URL 
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及 其 深度 分 别 作 为 键 值 。 对 代码 的 一 个 有 用 的 补充 是 设置 域名 访问 的 最 后 时 
间 ， 这 样 我 们 就 可 以 为 Downloader 类 实现 更 有 效 的 延 时 功能 了 。 这 一 部 分 
留 给 读者 作为 练习 。 








如 果 你 希望 队列 拥有 更 多 功能 ， 但 又 有 着 与 Redis 相同 的 可 用 性 ， 我 推荐 
你 了 解 python-rq， 这 是 一 个 易于 安装 和 使 用 的 Python 任务 队列 ， 它 与 
Celery 类 似 ， 但 其 功能 和 依赖 更 少 。 





继续 当前 的 RedisQueue 实现 ， 我 们 需要 对 多 线程 候 虫 进行 少量 更 新 ， 
以 支持 新 的 队列 类 型 ， 如 下 所 示 。 


def threaded crawler rq(...): 





# the queue of URL's that still need to be crawled 
crawl queue = RedisQueue() 





crawl queue.push(seed url) 


def process queue(): 
while len(crawl queue): 
url = crawl queue.pop() 








第 一 个 改动 是 将 Python 列表 蔡 换 成 基于 Redis 的 新 队列 ， 这 里 将 其 命名 
X RedisQueue. 由 于 该 队列 会 在 内 部 实现 中 处 理 重 复 URL 的 问题 , 因此 不 
再 需要 seen 变量 。 最 后 ， 调 用 RedisQueue 的 len 方法 , 确定 是 否 仍 然 有 
URL 在 队列 中 。 处 理 深度 和 发 现 功 能 的 进一步 逻辑 变更 如 下 所 示 。 
























































## inside process queu 
if no robots or rp.can fetch(user agent, url): 
depth = crawl queue.get depth(url) or 0 
if depth -- max depth: 
print('Skipping $s due to depth' $ url) 





continue 
html = D(url, num retries-num retries) 





if not html: 


continue 





if scraper callback: 
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links = scraper callback(url, html) or [] 
else: 
links = [] 


# filter for links matching our regular expression 


for link in get links(html, link regex) + links: 
if 'http' not in link: 
link - clean link(url, domain, link) 
crawl queue.push (link) 
crawl queue.set depth(link, depth + 1) 


完整 代码 请 参见 本 书 源码 文件 的 chp4 文件 夹 中 的 threaded crawler 


with queue.py. 


SEC) B e REEERE EJ S Ae T REESE PIRA Te 


import multiprocessing 
def mp threaded crawler(args, **kwargs): 
num procs = kwargs.pop('num procs') 
if not num procs: 
num cpus - multiprocessing.cpu count() 
processes - [] 
for i in range(num procs): 
proc = multiprocessing.Process( 
target-threaded crawler rq, args-args, 
kwargs-kwargs) 
proc.start() 
processes.append (proc) 
# wait for processes to complete 


for proc in processes: 





proc.join() 








这 段 代 码 的 结构 看 起 来 十 分 熟悉 , 因为 多 进程 模块 和 之 前 使 用 的 多 线程 模 


块 接口 相似 。 这 段 代 码 在 启动 脚本 时 ， 使 用 可 用 CPU 的 数量 




















(我 的 机 器 上 是 


8), 或 通过 参数 传 入 的 num_procs。 然 后, 每 个 处 理 器 启动 一 个 多 线程 候 虫 ， 














并 等 待 所 有 处 理 器 完成 执行 。 





现在 ， 让 我 们 使 用 如 下 命令 ， 测 试 多 进程 版 本 链接 爬虫 的 性 能 。 关 于 
mp threaded crawler 的 代码 可 以 从 本 书 源码 文件 的 cnp4 文件 夹 中 的 


threaded crawler aith queue.py 获取 。 
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$ python threaded crawler with queue.py 

Total time: 197.0864086151123s 

通过 脚本 检测 ， 我 的 机 器 有 8 个 CPU (4 个 物理 核心 、4 个 虚拟 核心 )， 
而 线程 的 默认 设置 是 5。 如 果 想 使 用 不 同 的 组 合 ， 可 以 使 用 -h 命令 查看 想 要 
的 参数 ， 如 下 所 示 。 




















Ins 





$ python threaded crawler with queue.py -h 
usage: threaded crawler with queue.py [-h] 
[max threads] [num procs] [url pattern] 


Multiprocessing threaded link crawler 
positional arguments: 


max threads maximum number of threads 


num procs number of processes 





url pattern regex pattern for url matching 


optional arguments: 
-h, --help show this help message and exit 





qb -h 命令 同样 也 适用 于 测试 threaded crawler.py 脚本 的 不 同 值 。 











在 默认 的 8 个 处 理 器 以 及 每 个 处 理 器 5 个 线程 的 设置 下 , 运行 时 间 比 之 前 
只 使 用 一 个 进程 的 多 线程 仆 虫 快 了 大 约 80%。 在 下 一 节 中 ， 我 们 将 进一步 研 
究 这 三 种 方式 的 相对 性 能 。 








4.5 性 能 











为 了 进一步 了 解 增加 线程 和 进程 的 数量 会 如 何 影 响 下 载 时 间 , RATIER 
500 个 网 页 时 的 结果 进行 了 对 比 ， 如 表 4.1 所 示 。 
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表 4.1 
脚本 线程 数 进程 数 时 间 相对 串 行 的 时 间 比 ”| 是 否 出 现 错误 ? 
串 行 1 1 1349.798s |1 Er 
多 线程 5 1 361.504s 3.73 否 
多 线程 10 1 275.492s 4.9 否 
多 线程 20 1 298.168s 4.53 是 
多 进程 2 2 726.899s 1.86 A 
多 进程 2 4 559.93s 241 1 
多 进程 2 8 451.772s 2.99 是 
多 进程 5 2 383.438s 3.52 f 
多 进程 5 4 156.389s 8.63 是 
多 进程 5 8 296.610s 4.55 是 
表格 的 第 5 列 给 出 的 是 相对 于 串 行 下 载 的 时 间 比 。 可 以 看 出 , 性 能 的 增长 
与 线程 和 进程 的 数量 并 不 是 成 线性 比例 的 ， 而 是 趋 于 对 数 ， 也 就 是 说 添加 过 








多 线程 后 反而 会 降低 性 能 。 比 如 ， 使 用 1 个 进程 5 个 线程 时 ， 性 能 大 约 为 串 
行 时 的 4 倍 ， 使 用 10 个 线程 时 性 能 只 达到 了 串 行 下 载 时 的 5 倍 ， 而 使 用 20 
个 线程 时 实际 上 还 降低 了 性 能 。 

根据 系统 的 不 同 ,性 能 的 增加 和 损失 可 能 会 有 所 不 同 ; 不 过 ,众所周知 的 
是 每 个 额外 的 线程 都 有 助 于 加 速 执行 ， 但 其 效果 低 于 之 前 添加 的 线程 (也 就 
是 说 这 不 是 一 个 线性 加 速 的 过 程 )。 这 是 可 以 预见 到 的 现象 ， 因 为 此 时 进程 需 
要 在 更 多 线程 之 间 进 行 切换 ， 专 门 用 于 每 一 个 线程 的 时 间 就 会 变 少 。 

此 外 ,下载 的 带宽 是 有 限 的 , 因此 最 终 添加 新 线程 将 无 法 带 来 更 快 的 下 载 
速度 。 当 你 自己 运行 该 代码 时 ， 可 能 会 注意 到 错误 〈 比 如 urlopen error 
[Errno 101] Network is unreachable) 会 贯穿 整个 测试 过 程 ， 尤 其 
是 当 你 使 用 大 量 线程 或 进程 时 。 这 显示 不 是 理想 状态 ， 你 会 比 选 择 更 少 的 线 
程 数 时 遇 到 更 频繁 的 下 载 错 误 。 当 然 ， 如 果 你 在 分 布 式 或 云 服 务 器 环境 中 运 
行 它 ,网 络 限制 则 会 有 所 不 同 。 表 4.1 最 后 一 列 跟踪 了 我 在 测试 时 遇 到 的 错误 
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情况 ， 我 所 使 用 的 环境 是 普通 运营 商 网 络 连接 的 单 台 笔 记 本 电脑 。 

你 得 到 的 结果 可 能 会 不 同 , 而 且 该 表 是 根据 笔记 本 电脑 而 不 是 服务 器 ( 带 
宽 更 好 、 后 台 进 程 更 少 ) 来 创建 的 ， 因 此 我 要 求 你 为 自己 的 计算 机 和 /或 服务 
器 创建 一 个 类 似 的 表格 。 一 旦 你 发 现 了 自己 机 器 的 极限 ， 又 想 获得 更 好 的 性 
能 ， 就 需要 在 多 台 服 务 器 上 分 布 式 部 署 聆 虫 ， 并 且 所 有 服务 器 都 要 指 癌 同一 
个 Redis 队列 实例 。 



































4.5.1 Python 多 进程 与 GIL 


要 对 Python 线程 和 进程 进行 长 期 的 性 能 检查 ， 首 先 必 须要 了 解 全 局 解释 
器 锁 〈GIL)。GIL 是 Python 解释 器 使 用 的 一 种 机 制 ， 同 一 时 间 只 会 有 一 个 线 
程 执行 代码 , 也 就 意味 着 Python 代码 是 线性 执行 的 (即使 使 用 多 进程 和 多 核 )。 
该 设计 决定 了 Python 可 以 运行 得 很 快 ， 但 又 是 线程 安全 的 。 























如 果 你 还 没有 看 过 PyCon 2010 中 David Beazley 关于 GIL 理解 的 演讲 ， 我 推 
荐 你 看 一 下 。Beazley 还 在 他 的 博客 上 有 很 多 文章 ， 并 且 在 GILectomy ( 试 
图 从 Python 中 移 除 GIL 以 实现 快速 的 多 进程 ) 上 有 一 些 有 趣 的 发 言 。 





GIL 在 高 IO 操作 上 增加 了 额外 的 性 能 负担 ， 比 如 网 络 爬 虫 。 有 一 些 方式 
可 以 利用 Python 的 多 进程 库 更 好 地 达到 路 进程 和 线程 的 数据 共享 。 

我 们 可 以 把 爬虫 写成 一 个 带 有 工作 池 或 队列 的 映射 ， 来 对 比 Python 自身 
的 多 进程 内 部 处 理 与 基于 Redis 的 系统 。 我 们 也 可 以 使 用 异步 编程 , 增强 线程 
性 能 ， 提 高 网 络 利 用 率 。 类 似 async、tornado 甚至 NodeJS 的 异步 库 ， 可 以 让 
程序 以 非 阻塞 的 方式 执行 ， 这 就 意味 着 进程 可 以 在 等 待 网 络 服务 器 响应 时 切 
换 到 不 同 的 线程 。 这 些 实现 方式 很 可 能 会 比 我 们 的 用 例 速 度 更 快 。 

另外 ， 我 们 还 可 以 使 用 类 似 PyPy 的 项 目 ， 帮 助 提升 多 线程 和 多 进程 的 速 
度 。 也 就 是 说 ， 在 实现 优化 之 前 ， 你 需要 测量 性 能 并 评估 需求 〈 不 要 过 早 优 
化 )。 时 刻 询问 自己 速度 是 否 比 清 晰 度 更 重要 ， 直 觉 是 否 比 实际 观察 更 正确 ， 
这 是 一 个 很 好 的 规则 。 请 谨 记 Python 之 禅 ， 然 后 继续 前 行 吧 ! 
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$43 并 发 下 载 


4.6 本章 小 结 








本 章 中 ,我 们 介绍 了 串 行 下 载 存在 性 能 瓶颈 的 原因 , 给 出 了 通过 多 线程 和 
多 进程 高 效 下 载 大 量 网 页 的 方法 ， 并 对 比 了 什么 时 候 优 化 或 增加 线程 和 进程 
可 能 是 有 用 的 ,什么 时 候 又 是 有 害 的 。 我 们 还 实现 了 一 个 新 的 Redis 队列 ， 并 
且 使 用 它 实现 跨 机 器 或 进程 的 处 理 。 


下 一 章 中 ， 我 们 将 介绍 如 何 抓 取 使 用 JavaScript 动态 加 载 内 容 的 网 页 。 
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动态 内 容 








根据 联合 国 2006 年 的 一 项 研究 ，73% 的 主流 网 站 都 在 其 重要 功能 中 依赖 
JavaScript。 诸 如 React, AngularJS, Ember. Node 等 使 用 JavaScript 的 模型 - 
视图 -控制 器 (MVC) 框架 的 增长 与 流行 ， 更 加 提高 了 JavaScript 作为 网 页 内 
容 主流 引擎 的 重要 性 。 

和 单 页 面 应 用 的 简单 表单 事件 不 同 ， 使 用 JavaScript 时 ， 不 再 是 加 载 后 立 
即 下 载 页 面 全 部 内 容 。 这 种 架构 会 造成 许多 网 页 在 浏览 器 中 展示 的 内 容 可 能 
不 会 出 现在 HTML 源 代码 中 ， 我 们 在 前 面 介绍 的 抓 取 技术 也 就 无 法 抽取 网 站 
的 重要 信息 了 。 

对 于 这 种 动态 的 JavaScript 网 站 ， 本 章 将 会 介绍 两 种 抓 取 其 数据 的 方法 ， 
分 别 是 : 


€ JavaScript 道 向 工程 ; 









































© È% JavaScript. 


5.1 动态 网 页 示例 














让 我 们 来 看 一 个 动态 网 页 的 例子 。 示 例 网 站 有 一 个 搜索 表单 ,可 以 通过 
http://example.python-scraping.com/search 进行 访问 ， 该 页 面 
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用 于 查询 国家 (或 地 区 )。 比 如 说 , 我 们 想 要 查找 所 有 起 始 字 母 为 A 的 国家 
(或 地 区 )， 其 搜索 结果 页 面 如 图 5.1 所 示 。 








Name: A 


Page size: 10 x 


| Search | 


go Afghanistan zs Aland Islands 
EJ Albania € Algeria 
E: American Samoa g) Andorra 
E Angola P LI Anguilla 


sa Antarctica KA Antigua and Barbuda 


< Previous | Next > 

















图 5.1 























如 果 我 们 右键 单 击 结 果 部 分 ， 使 用 浏览 器 工具 查看 元 素 (参见 第 2 章 )， 
可 以 发 现 结果 被 存储 在 I 有 D 为 “result” 的 div 元 素 之 中 ， 如 图 5.2 所 示 。 

让 我 们 尝试 使 用 1xml 模块 抽取 这 些 结果 , 这 里 用 到 的 知识 在 第 2 章 和 第 
3 章 的 Downloader 类 中 都 已 经 介绍 过 了 。 





>>> from lxml.html import fromstring 

>>> from downloader import Downloader 

>>> D = Downloader () 

>>> html = D('http://example.python-scraping.com/search') 
>>> tree = fromstring (html) 

>>> tree.cssselect('diviresults a') 


[1 
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51 动态 网 页 示例 





Name: A 


Page size: 10 Y 


Search 


E Afghanistan - Aland Islands 
第 Albania € Algeria 
Es American Samoa B Andorra 


d inspect Qa 
Console | HTML | CSS Script DOM 
3 «div class-"container"» a 
由 «header class-"mastheader row" id-"header"» 
[Ej «section id-"main" class-"main row"» 
B «div class-"spanl2"» 
由 «form» 
E «div id-"results"» 
B «table» 
zj <tbody> 
B <tr> 
B <td> 
3 «div» 
Ba href="/view/Afghanistan-1"> 
</div> 
</td> 
E <td> 
</tr> 
<tr> 




















图 5.2 











这 个 示例 爬虫 在 抽取 结果 时 失败 了 。 ee (通过 使 用 鼠标 右键 
单 击 View Page Source 选项 ， 而 不 是 使 用 浏览 器 工具 ) 可 以 帮助 我 们 了 解 抽 
取 操 作为 什么 会 失败 。 在 源 代码 中 ， MA EE div 元 素 实际 

上 是 空 的 ， 如 下 所 示 。 


«div id-2"results"» 
«/div» 


而 浏览 器 工具 显示 给 我 们 的 却 是 网 页 的 当前 状态 ， o. 
JavaScript 动态 加 载 完 搜索 结果 之 后 的 网 页 。 下 一 节 中 ， 我 们 将 使 用 浏览 器 
有 具 的 另 一 个 功能 来 了 解 这 些 结果 是 如 何 加 载 的 。 
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什么 是 AJAX 

AJAX 指 异 步 JavaScript 和 XML ( Asynchronous JavaScript and XML ), F 
2005 年 引入 ， 描 述 了 一 种 跨 浏览 器 动态 生成 Web 应 用 内 容 的 功能 。 更 重要 
的 是 ，XMLHttpRequest 一 一 这 个 最 初 微软 为 ActiveX 实现 的 JavaScript 
对 象 ， 目 前 已 经 得 到 大 多 数 浏览 器 的 支持 。 该 技术 允许 JavaScript 创建 到 远 

程 服 务 器 的 HTTP 请 求 并 获得 响应 ， 也 就 是 说 Web 应 用 可 以 传输 和 接收 数 
据 。 而 以 前 客户 端 与 服务 端 交互 的 方式 则 是 刷新 整个 网 页 ， 这 种 方式 的 用 
户 体验 比较 差 ， 并 且 在 只 需 传 输 少量 数据 时 会 造成 带宽 浪费 。 

Google 的 Gmail 和 地 图 站 点 是 动态 Web 应 用 的 早期 实验 者 , 也 对 AJAX 成 
为 主流 起 到 了 重要 的 帮助 作用 。 


5.2. ”对 动态 网 页 进行 逆向 工程 


到 目前 为 止 , 我 们 抓 取 网 页 数据 使 用 的 都 是 第 2 章 中 介绍 的 方法 。 该 方法 

















在 本 章 的 示例 网 页 中 无 法 正常 运行 ， 因 为 该 网 页 中 的 数据 是 使 用 JavaScript 动 
态 加 载 的 。 o 我 们 需要 了 解 网 页 是 如 何 加 载 该 数据 的 ， 该 过 程 





也 可 以 描 





























述 为 逆向 工程 。 继 续 上 一 节 的 例子 ， 在 浏览 器 工具 中 单 击 Network 





选项 卡 ， 然 后 执行 一 次 搜索 ， 我 们 将 会 看 到 对 于 给 定 页 面 的 所 有 请 求 。 




















请 求 太 多 了 ! 当 我 们 滚动 这 些 请 求 时 ， 可 以 看 到 请 求 主要 都 是 图 片 〈 加 载 














的 旗帜 )， 然 后 我 们 会 发 现 一 个 有 意思 的 名 字 : search.json， 其 路 径 为 
/ajax， 如 图 5.3 所 示 。 

如 果 我 们 使 用 Chrome 点 击 该 URL, 可 以 看 到 更 多 细节 (所 有 主流 浏览 
都 有 类 似 功能 ， 因 此 即使 你 看 到 的 外 观 可 能 有 所 不 同 ， 但 主要 的 功能 是 相似 
的 )。 当 我 们 点 击 感 兴趣 的 URL 时 ， 可 以 看 到 更 多 细节 ， 包 括 以 解析 形式 向 
我 们 展示 响应 的 预览 。 


这 里 与 Elements 选项 卡 中 的 Inspect Element 视图 类 似 ， 我 们 可 以 使 用 箭 
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头 展开 预览 ， 此 时 可 以 看 到 结果 中 的 每 个 


式 中 ， 如 图 5.4 所 示 。 
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家 或 地 区 ) 都 包含 在 JSON 格 



























































e *|O à Di 
Name: f 
nak [19 * 
Search 
NH eese LT 了 
na Profles Application Security Audis Adelock x 
€ S - y vo 9 (€ Disable cache Offline Na throttling . 
Hse dsta URLs (| XH JS css img Mede Font Doc WS Manifest Other 
feno - ims 
[P pro Moro Ani ^ E! ins - 
serdüoxrisah terak oa0e scie xm aus ims 
F E > - 
d h a 
chragede Ey » Ses Sene a 
—— * 四 E. is Mars Li 
FLAME m " pm ve vm di 
DM EJ Es 3 m vos Aa 
am ine anms mim 
| Maaka transfered | Fishi 1498s | DOMContertloaded 243s | Losdt2.33s 
i comol x 
$ vu * € reser 
Ont to " E —À 
E A a Jaanen tav icon ieo 408 QT FOND) uem 
图 5.3 
Name: f 
Page size: 10 bi 
Search 
| ous BIB A cn de 
[R Ó] | Elements Console Sources Network Timeline Profiles Application Security Audits AdBlock 
© SG m Y view | Preservelog Æ Disable cache Offline No throttling M 
Regex C Hidedata URLs (T XHR JS CSS Img Media Font Doc WS Manifest Other 
1000 ms 2000 ms 3000 ms 4000 m 5000 ms 6000 ms 7000 ms 8000 ms 9000 ms 10000 ms 
|Name 
Path X Headers Preview Response Cookies Timing 
La piodpoplcdb ^| v (records Mt «G3. num pages: 22, error: ^") 
E error: 
teen num pages: 22 
L /places/statiqim.. v records: [{, Gh. zh 62H 
|] search json?&sea... vO: 6-]) 
Fix country: "Afghanistan" 
id: 2525797 
mm axpng pretty link: "«div»«a href-"/view/Afghanistan-l"»«img srce"/places/static/images/flags/af.png" /> Afghanistanc/a»«/div»* 
C /places/static/im. Ppl: {,.} 
za P2: {um} 
D x y »3:6-) 
ma x [2m 
g| alLpng 5: G-) 
m idm Pe: 62 
b7: 6- 
dz. png 
E ep »8: {,-} 
CR 上 9: G-) 
] as.pna = 
[51reguests | 140KB ir, 























5.4 








第 5 章 动态 内 容 








我 们 也 可 以 通过 右键 单 击 的 方式 直接 在 新 标签 页 中 打开 该 URL。 当 你 这 
样 操作 时 ， 会 发 现 它 就 是 一 个 简单 的 JSON 响应 。 这 个 AJAX 数据 不 仅 可 以 
在 Network 选项 卡 或 浏览 器 中 访问 到 ， 也 可 以 直接 下 载 ， 如 下 面 的 代码 所 示 。 








>>> import requests 

>>> resp = 

requests.get('http://example.python-scraping.com/ajax/search.json?page 
-0&page s 

ize-l0&search term-a') 

>>> resp.json() 

('error': '', 

'num pages': 21, 


'records': [('country or district': 'Afghanistan', 
'id': 1261, 
'pretty link': '<div><a href-"/view/Afghanistan-1"»«img 


srcz"/places/static/images/flags/af.png" /»Afghanistan«/a»«/div»'), 
..] 
) 


从 前 面 的 代码 中 可 以 看 出 ， requests 库 可 以 让 我 们 通过 json 方法 ， 以 
Python 字典 的 形式 访问 JSON 响应 。 我 们 也 可 以 下 载 原始 字符 串 响 应 ， 然 后 
使 用 3son.loads 方法 进行 加 载 。 

我 们 的 代码 为 我 们 提供 了 一 个 简单 的 方法 来 抓 取 包含 字母 A 的 国家 《或 
地 区 )。 要 想 获取 所 有 国家 (或 地 区 ) 的 信息 ， 我 们 需要 对 字母 表 中 的 每 个 字 
母 调 用 一 次 AJAX 搜索 。 而 且 对 于 每 个 字母 ， 搜 索 结 果 还 会 被 分 割 成 多 个 页 
面 ， 实 际 页 数 和 请 求 时 的 page size 相关 。 

不 过 , 我们 不 能 保存 所 有 返回 的 结果 ， 因 为 同一 个 国家 (或 地 区 ) 可 能 会 
在 多 次 搜索 时 返回 ， 比 如 Fiji 会 匹配 f. i. j 三 次 搜索 结果 。 这 些 重复 的 
搜索 结果 需要 过 滤 处 理 ， 这 里 采用 的 方法 是 在 号 入 文本 文件 之 前 先 将 结果 存 
储 到 集合 中 ， 因 为 集合 这 种 数据 类 型 能 够 确保 元 素 唯 一 。 

下 面 是 其 实现 代码 , 通过 搜索 字母 表 中 的 每 个 字母 , 然后 遍历 JSON 响应 
的 结果 页 面 ， 来 抓 取 所 有 国家 (或 地 区 ) 信息 。 其 产生 的 结果 将 会 存储 在 简 
单 的 文本 文件 当中 。 
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import requests 


import string 








PAGE SIZE - 10 
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template url = 'http://example.python-scraping.com/ajax/' + 





'search.json?page-(]&page size-(]&search term-(]' 


countries or districts - set() 


for letter in string.ascii lowercase: 





print('Searching with $s' % letter) 
page = 0 
while True: 











resp = requests.get(template url.format(page, PAGE SIZE, letter)) 








data = resp.json() 
print('adding $d more records from page $d' $ 
(len(data.get('records')), page)) 


for record in data.get('records'): 


countries.add(record['country or district']) 


page += 1 
if page »- data['num pages']: 
break 
with open('../data/countries or districts.txt', 


file: 


'w') as countries or districts | 


countries or districts file.write('n'.join(sorted(countries or districts))) 


当 你 运行 该 代码 时 ， 将 会 看 到 不 断 前 行 的 输 


$ Python chp5/json scraper.py 
Searching with a 

adding 10 more records from page 0 
adding 10 more records from page 1 


当 脚 本 执行 完成 时 ， 相 对 目录 ../data/ 下 的 countries or 


出 。 


districts.txt 文件 中 ， 将 会 显示 一 个 排序 的 国家 (或 地 区 ) 名 称 列表 。 





uj 





你 可 能 还 会 注意 到 ， 页 面 长 度 可 以 使 用 全 局 变量 PAGE SIZE 设置 。 你 可 能 











需要 尝试 修改 它 ， 以 增加 或 减少 请 求 数 。 





异步 社区 会 员 sergeant(15779577768) 专 享 尊重 版 权 

















该 AJAX ERRARE REK) 信息 的 方法 ， 比 第 2 章 中 介绍 
的 传统 的 逐 页 抓 取 方式 更 简单 。 这 其 实 是 一 个 日 常 经 验 : 依赖 于 AJAX 的 网 
站 虽然 乍 看 起 来 更 加 复杂 ， 但 是 其 结构 促使 数据 和 表现 层 分 离 ， 因 此 我 们 在 
抽取 数据 时 会 更 加 容易 。 如 果 你 发 现 一 个 网 站 拥有 类 似 该 示例 站 点 的 开放 应 
用 编程 接口 API)， 那 么 你 就 可 以 只 抓 取 其 API， 而 无 须 再 使 用 CSS 选择 器 
和 XPath 加 载 HTML 中 的 数据 了 。 























5.2.1 边界 情况 

前 面 的 AJAX 搜索 脚本 非常 简单 ， 不 过 我 们 还 可 以 利用 一 些 可 能 的 边界 
情况 使 其 进一步 简化 。 目 前 ， 我 们 是 针对 每 个 字母 执行 查询 操作 的 ， 也 就 是 
说 我 们 需要 执行 26 次 单独 的 查询 ， 并 且 这 些 查 询 结果 又 有 很 多 重复 。 理 想 情 
况 下 ， 我 们 可 以 使 用 一 次 搜索 查询 就 能 匹配 所 有 结果 。 接 下 来 ， 我 们 将 党 
试 使 用 不 同 字 符 来 测试 这 种 想法 是 否 可 行 。 如 果 将 搜索 条 件 置 为 空 ， 其 结 
如 下 。 






























































>>> url - 

'http://example.python-scraping.com/ajax/search.json?page-0&page 
Size-10&search term-' 

>>> requests.get(url).json()['num pages'] 

0 


很 不 垃 ， 这 种 方法 并 没有 奏效 ,我 们 没有 得 到 返回 结果 。 下 面 我 们 再 来 尝 
试 * 是 否 能 够 四 配 所 有 结果 。 




















>>> requests.get(url + '*').json()['num pages'] 
0 


依然 没有 奏效 。 接 下 来 我 们 再 尝试 一 下 ''， 这 是 正则 表达 式 里 用 于 匹配 所 
有 字符 的 元 字符 。 




















>>> requests.get(url + '.').json()['num pages'] 
26 
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太 好 了 1! 服务 端 肯 定 是 通过 正则 表达 式 进行 匹配 的 。 因 此 ,我 们 现在 可 以 
把 依次 搜索 每 个 字符 替换 成 只 对 点 号 搜索 一 次 了 。 

此 外 ， 我 们 还 可 以 在 AJAX 的 URL 中 使 用 page. size 这 个 查询 字符 
囊 的 值 设置 页 面 大 小 。 网 站 搜索 界面 中 包含 4、10、20 这 几 种 选项 ， 其 中 
默认 值 为 10。 因 此 ， 提 高 每 个 页 面 的 显示 数量 到 最 大 值 ， 可 以 使 下 载 次 数 
Wet. 
































n 




















>>> url - 

'"http://example.python-scraping.com/ajax/search.json?page-0&page 
Size-20&search term-.' 

>>> requests.get(url).json()['num pages'] 

13 


那么 , 要 是 使 用 比 网 页 界面 选择 框 支持 的 每 页 国家 (或 地 区 ) 数 更 高 的 数 
值 又 会 怎样 呢 ? 











>>> url - 

'http://example.python-scraping.com/ajax/search.json?page-0&page 
size-1000&search term-.' 

>>> requests.get(url).json()['num pages'] 

1 


显然 , 服务 端 并 没有 检查 该 参数 是 否 与 界面 允许 的 选项 值 相 匹 配 , 而 是 直 
接 在 一 个 页 面 中 返回 了 所 有 结果 。 许 多 Web 应 用 不 会 在 AJAX 后 端 检 查 这 一 
参数 ， 因 为 它们 认为 所 有 API 请 求 只 会 来 自 Web 界面 。 

现在 ， 我 们 手工 修改 了 这 个 URL， 使 其 能 够 在 一 次 请 求 中 下 载 得 到 所 有 
国家 (或 地 区 ) 的 数据 。 下 面 是 更 新 后 进一步 简化 的 实现 ， 在 该 实现 中 数据 
将 被 保存 到 CSV 文件 当中 。 


























from csv import DictWriter 
import requests 





PAGE SIZE - 1000 











template url = 'http://example.python-scraping.com/ajax/' + 
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'search.json?page-0&page size={}&search term-.' 

















resp = requests.get(template url.format(PAGE SIZE)) 





data = resp.json() 

records = data.get('records!') 

with open('../data/countries or districts.csv', 'w') as countries or districts 
file: 





wrtr = DictWriter (countries or districts file, fieldnames-records[0].keys () ) 
wrtr.writeheader() 


wrtr.writerows (records) 


5.3 泻 染 动态 网 页 





对 于 搜索 网 页 这 个 例子 ， 我 们 能 够 快速 地 对 API 的 方法 进行 逆向 工程 来 
了 解 它 如 何 工 作 ， 以 及 如 何 使 用 它 在 一 个 请 求 中 获取 结果 。 但 是 ， 一 些 网 站 
非常 复杂 ， 即 使 使 用 高 级 的 浏览 器 工具 也 很 难 理解 。 比 如 ， 一 个 网 站 使 用 
Google Web Toolkit ( GWT ) 开发 ， 那 么 它 产 生 的 JavaScript 代码 是 机 器 生成 
的 压缩 版 。 生 成 的 JavaScript 代码 虽然 可 以 使 用 类 似 JS beautifier 的 工 
具 进 行 还 原 ， 但 是 其 产生 的 结果 过 于 见长 ， 而 且 原 始 的 变量 名 也 已 经 丢失 ， 
这 就 使 其 难以 理解 ， 难 以 实施 逆向 工程 。 

此 外 ， 更 高 级 的 框架 (比如 React .js 以 及 其 他 基于 Node.js 的 工具 ) 可 以 
进一步 抽象 已 经 很 复杂 的 JavaScript 逻辑 ， 混 淆 数据 和 变量 名 称 ， 并 添加 更 多 的 
API 请 求 安全 层 〈 使 用 cookie、 浏 览 器 会 话 以 及 时 间 惟 ,或 使 用 其 他 防 息 技术 )。 

尽管 经 过 足够 的 努力 , 任何 网 站 都 可 以 被 逆向 工程 , 不 过 我 们 可 以 使 用 浏 
览 器 演 染 引擎 避免 这 些 工 作 ， 这 种 演 染 引擎 是 浏览 器 在 显示 网 页 时 解析 
HTML、 应 用 CSS 样式 并 执行 JavaScript 语句 的 部 分 。 在 本 节 中 ， 我们 将 使 用 
WebKit 泻 染 引 擎 ， 通 过 Qt 框架 可 以 获得 该 引擎 的 一 个 便捷 Python 接口 。 






















































































什么 是 WebKit? 
WebKit 的 代码 源 于 1998 年 的 KHTML 项 目 ， 当 时 它 是 Konqueror 浏览 器 
的 泻 染 引擎 。2001 年 ， 革 果 公 司 将 该 代码 衍生 为 WebKit， 并 应 用 于 Safari 
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浏览 器 .Google 在 Chrome 27 之 前 的 版 本 也 使 用 了 WebKit 内 核 , 直到 2013 
年 转向 利用 WebKit 开发 的 Blink 内 核 。Opera 在 2003 年 到 2012 年 间 使 用 
的 是 其 内 部 的 Presto 泻 染 引擎 ， 之 后 切换 到 WebKit， 但 是 不 久 又 跟随 
Chrome 转向 Blink。 其 他 主流 泻 染 引擎 还 包括 正 使 用 的 Trident 和 Firefox 
的 Gecko. 


5.3.14. PyQt 还 是 PySide 


Qt 框架 有 两 种 可 以 使 用 的 Python 库 ， 分 别 是 PyQt 和 PySide. PyQt 
最 初 于 1998 年 发 布 ， 但 在 用 于 商业 项 目 时 需要 购买 许可 。 由 于 该 原因 ， 开 发 
Qt 的 公司 (原先 是 诺基亚 , 现在 是 Digia) 后 来 在 2009 年 开发 了 另 一 个 Python 
JE Pyside， 并 且 使 用 了 更 加 宽松 的 LGPL 许可 。 
虽然 这 两 个 库 有 少许 区 别 ， 但 是 本 章 中 的 例子 在 两 个 库 中 都 能 够 正常 工 
作 。 下 面 的 代码 片段 用 于 导入 已 安装 的 任何 一 种 Qt 库 。 












































try: 
from PySide.QtGui import * 
from PySide.QtCore import * 
from PySide.QtWebKit import * 
except ImportError: 
from PyQt4.QtGui import * 
from PyQt4.QtCore import * 
from PyQt4.QtWebKit import * 


在 这 段 代 码 中 ， 如 果 Pyside 不 可 用 ， 则 会 抛 出 ImportError 异常 ， 
然后 导入 PyQt 模块 。 如 果 PyQt 模块 也 不 可 用 ， 则 会 执 出 另 一 个 
ImportError 异常 ， 然 后 退出 脚本 。 














下 载 和 安装 这 两 种 Qt 库 Python 版 本 的 说 明 可 以 分 别 参 考 网 上 的 相应 介绍 。 
对 于 你 正在 使 用 的 Python 3 的 版 本 ， 可 能 存在 没有 对 应 库 的 情况 ， 不 过 其 
发 布 很 频繁 ， 因 此 你 可 以 经 常 回 来 查看 一 下 。 
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1. 使 用 Qt 进行 调试 

无 论 你 使 用 的 是 PySide 还 是 PyQt， 可 能 都 会 遇 到 需要 调试 应 用 或 脚本 的 
网 站 。 我 们 已 经 介绍 了 一 种 方式 可 以 实现 该 目的 ， 就 是 通过 使 用 owebview 
这 个 GUI 的 show 0 方法 来 “查看 ”你 加 载 的 页 面 上 泻 染 了 什么 。 你 也 可 以 
使 用 page() .mainFrame() .toHtml() 链 (在 任何 时 刻 使 用 
BrowserRender 类 通过 html 方法 拉 取 HTML 时 均 可 以 很 容易 地 引用 ), 将 
其 写 入 文件 中 保存 下 来 ， 然 后 在 浏览 器 中 打开 。 

此 外 ， 还 有 一 些 有 用 的 Python 调试 器 ， 比 如 pdb， 你 可 以 将 它 集 成 到 脚 
本 中 ， 然 后 使 用 断 点 单 步 执行 可 能 存在 错误 、 问 题 或 bug 的 代码 。 针 对 不 同 
库 和 你 安装 的 Qt 版 本 的 不 同 ， 有 一 些 不 同 的 设置 方式 ， 因 此 我 们 建议 搜索 你 
的 确切 设置 ， 并 复查 实现 ， 以 允许 设置 断 点 或 跟踪 。 





















































5.3.2 ”执行 JavaScript 


为 了 确认 你 安装 的 WebKit 能 够 执行 JavaScript， 我 们 可 以 使 用 位 于 
http://example.python-scraping.com/dynamic 上 的 这 个 简单 示例 。 

















该 网 页 只 是 使 用 JavaScript 在 div 元 素 中 写 入 了 Hello World。 下 面 是 
其 源 代 码 。 


«html» 
«body» 
«div id-2"result"»«/div» 
«script» 





document.getElementById("result").innerText = 'Hello World'; 
</script> 
</body> 
</html> 


使 用 传统 方法 下 载 原 始 HTML 并 解析 结果 时 ， 得 到 的 div 元 素 为 空 值 ， 
如 下 所 示 。 














>>> import lxml.html 
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>>> 
>>> 
>>> 
>>> 
>>> 
>>> 


from chp3.downloader import Downloader 

D = Downloader () 

url = 'http://example.python-scraping.com/dynamic' 
html = D (url) 

tree = lxml.html.fromstring (html) 

tree .cssselect('#result') [0] .text content() 








下 面 是 使 用 WebKit 的 初始 版 本 代码 ， 当 然 还 需 事先 导入 上 一 节 中 提 到 的 
PyQt Hi PySide 模块 。 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 


app = QApplication([]) 

webview = QWebView () 

loop = QEventLoop() 
webview.loadFinished.connect (loop.quit) 
webview.load(QUrl(url)) 

loop.exec () 

html = webview.page().mainFrame().toHtml () 
tree = lxml.html.fromstring (html) 
tree.cssselect('fMresult')[0].text content() 


'Hello World' 


因为 这 里 有 很 多 新 知识 ， 所 以 下 面 我 们 会 逐 行 分 析 这 段 代 码 。 





第 一 行 初 始 化 了 QApplication 对 象 ,在 其 他 Qt 对 象 可 以 初始 化 之 





前 ， 需 要 先 有 Qt 框架 。 








接 下 来 ， 创 建 QWebView 对 象 ， 该 对 象 是 Web 文档 的 构件 。 





创建 oEventLoop 对 象 ， 该 对 象 用 于 创建 本 地 事件 循环 。 








QWebView 对 象 的 loadFinished 回调 链接 了 QEventLoop 的 
quit 方法 ， 从 而 可 以 在 网 页 加 载 完成 之 后 停止 事件 循环 。 然 后 ， 再 

















将 要 加 载 的 URL 传 给 OWebView。 











PyQt 需要 将 该 URL 字符 串 封 装 到 oUrl 对 象 当 中 ， 而 对 于 PySide 


来 说 则 是 可 选项 。 





由 于 QWebView 是 异步 加 载 的 ， 因 此 执行 过 程 会 在 网 页 加 载 时 立即 
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传 入 下 一 行 。 但 我 们 又 希望 等 待 网 页 加 载 完 成 ， 因 此 需要 在 事件 循环 
启动 时 调用 loop .exec_ 0. 
e 网 页 加 载 完 成 后 ， 事 件 循环 退出 ， 代 码 执 行 继续 ， 对 加 载 得 到 网 页 所 
产生 的 HTML 使 用 toHTML 方法 执行 抽取 。 
e 从 最 后 一 行 可 以 看 出 ， 我 们 成 功 执行 了 该 JavaScript, div 元 素 抽 取 
出 了 Hello World. 
这 里 使 用 的 类 和 方法 在 C++ 的 Qt 框架 网 站 中 都 有 详细 的 文档 ， 读 者 可 自 
行 参考 。 昌 然 Pyot 和 Pyside 都 有 其 自身 的 文档 ， 但 是 原始 C+t+ 版 本 的 描 
述 和 格式 更 加 详尽 ， 一 般 的 Python 开发 者 可 以 用 它 替 代 。 












































5.3.3 ”使 用 WebKit 与 网 站 交互 


我 们 用 于 测试 的 搜索 网 页 需要 用 户 修 改 后 提交 搜索 表单 ,然后 单 击 页 面 链 
接 。 而 前 面 介 绍 的 浏览 器 泻 染 引擎 只 能 执行 JavaScript， 然 后 访问 生成 的 
HTML。 要 想 抓 取 搜索 页 面 ， 我 们 还 需要 对 浏览 器 演 染 引擎 进行 扩展 ， 使 其 
支持 交互 功能 。 笠 运 的 是 ，Qt 包含 了 一 个 非常 棒 的 API， 可 以 选择 和 操纵 
HTML 元 素 ， 使 实现 变 得 简单 。 

对 于 之 前 的 AIAX 搜索 示例 ， 下 面 给 出 男 一 个 实现 版 本 ， 该 版 本 已 经 将 
搜索 条 件 设 为 '， 每 页 显示 数量 设 为 '1000'， 这 样 只 需 一 次 请 求 就 能 获取 到 
全 部 结果 。 









































app = QApplication([]) 
webview = QWebView() 
loop = QEventLoop() 








webview.loadFinished.connect (loop.quit) 
webview.load(QUrl('http://example.python-scraping.com/search!')) 
loop.exec () 

webview.show() 


frame = webview.page().mainFrame() 








frame.findFirstElement('4search term'). 
setAttribute('value', '.') 


frame.findFirstElement('4page size option:checked'). 
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setPlainText('1000') 
frame.findFirstElement('£search'). 





evaluateJavaScript('this.click()') 
app.exec () 


最 开始 几 行 和 之 前 的 Hello World 示例 一 样 ， 初 始 化 了 一 些 用 于 演 染 网 页 
的 Qt 对象 。 之 后 ， 调 用 QWebView GUI 的 show () 方法 来 显示 泻 染 窗 口 ， 这 样 
可 以 方便 调试 。 然 后 ， 创 建 了 一 个 指 代 框 架 的 变量 ， 可 以 让 后 面 几 行 代码 更 短 。 

QWebFrame 类 有 很 多 与 网 页 交互 的 有 用 方法 。 包 含 fijndFirstElement 
的 3 行使 用 CSS 选择 器 在 框架 中 定位 元 素 ， 然 后 设置 搜索 参数 。 而 后 表单 使 
用 evaluateJavaScript () 方 法 进行 提交 ， 模 拟 点 击 事 件 。 该 方法 非常 实 
用 ,因为 它 允 许 我 们 插入 并 执行 任何 我 们 提交 的 JavaScript 代码 , 包括 直接 调 
用 网 页 中 定义 的 JavaScript 方法 。 最 后 一 行进 入 应 用 的 事件 循环 ， 此 时 我 们 可 
以 对 表单 操作 进行 复查 。 如 果 没 有 使 用 该 方法 ， 脚 本 将 会 直接 退出 。 

5.5 所 示 为 脚本 运行 时 的 显示 界面 。 






























































Example web scraping 
website 


Name: 
Page size: 1000 


Search 
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EJ Albania ES Algeria 
ELS American Samoa g | Andorra 
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代码 最 后 一 行 中 ， 我 们 运行 了 app. exec () ， 它 是 一 个 阻塞 调用 ， 可 以 
防止 任何 其 他 代码 行 在 该 线程 中 执行 。 通 过 使 用 webkit.show() 查看 你 的 
代码 如 何 运转 ， 是 调试 应 用 以 及 确定 网 页 上 实际 发 生 了 什么 的 很 好 的 方式 。 


如 果 想 要 停止 应 用 运行 ， 只 需 关 闭 Qt 窗口 (或 Python 解释 器 ) 即 可 。 






































实现 WebKit 仆 虫 的 最 后 一 部 分 是 抓 取 搜 索 结果 ,而 这 又 是 最 难 的 一 部 分 ， 
因为 我 们 难以 预 估 完 成 AJAX 事件 以 及 国家 (或 地 区 ) 数据 加 载 完 成 的 时 间 。 
有 三 种 方法 可 以 处 理 该 难题 ， 分 别 是 : 

e 等 待 一 定时 间 ， 期 望 AJAX 事件 能 够 在 此 之 前 完成 ; 

e 重 写 Qt 的 网 络 管理 器 ， 跟 踪 URL 请 求 的 完成 时 间 : 

e 轮 询 网 页 ， 等 待 特定 内 容 出 现 。 

第 一 种 方案 最 容易 实现 , 不 过 效率 也 最 低 , 因为 一 旦 设置 了 安全 的 超时 时 
间 ， 就 会 使 脚本 花费 过 多 时 间 等 待 。 而 且 ， 当 网 络 速度 比 平常 慢 时 ， 固 定 的 
超时 时 间 会 出 现 请 求 失败 的 情况 。 第 二 种 方案 虽然 更 加 高 效 ， 但 如 果 是 客户 
端 延 时 ， 则 无 法 使 用 。 比 如 ， 己 经 完成 下 载 ， 但 是 需要 再 单 击 一 个 按钮 才 会 
显示 内 容 这 种 情况 ， 延 时 就 出 现在 客户 端 。 第 三 种 方案 尽管 存在 一 个 小 缺点 ， 
即 会 在 检查 内 容 是 否 加 载 完 成 时 浪费 CPU 周期 , 但 是 该 方案 更 加 可 靠 且 易于 
实现 。 下 面 是 使 用 第 三 种 方案 的 实现 代码 。 




















































































































>>> elements = None 
>>> while not elements: 
app.processEvents () 
elements = frame.findAllElements('iresults a') 


>>> countries = [e.toPlainText().strip() for e in elements] 
>>> print(countries or districts) 
['Afghanistan', 'Aland Islands', ... , 'Zambia', 'Zimbabwe'] 


如 上 实现 中 ， 代 码 将 停留 在 while 循环 中 ， 直 到 国家 《或 地 区 ) 链接 出 
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现在 results iX ^^ div 元 素 中 。 每 次 循环 ， 都 会 调用 
app.processEvents () ， 用 于 给 Qt 事件 循环 执行 任务 的 时 间 ， 比 如 响应 
点 击 事件 和 更 新 GUI。 我 们 还 可 以 在 该 循环 中 添加 一 个 短 时 间 的 sleep， 以 
fi CPU [8] ER E. 


本 示例 的 完整 代码 位 于 本 书 源码 文件 的 chp5 文件 夹 中 ， 其 名 为 
pyqt search.py. 

















5.4 泻 染 类 





为 了 提升 这 些 功能 后 续 的 易 用 性 ， 下 面 会 把 使 用 到 的 方法 封装 到 一 个 类 中 ， 
其 源 代 码 可 以 从 本 书 源码 文件 的 chp5 文件 夹 中 找到 ， 其 名 为 browser 


render.pye 


import time 





class BrowserRender (OWebView): 
def | init (self, show-True): 
self.app = QOApplication(sys.argv) 
OWebView. init (self) 
if show: 
self.show() # show the browser 


def download(self, url, timeout-600): 
"""Wait for download to complete and return result""" 





loop = QEventLoop() 





timer = QTimer() 





timer.setSingleShot (True) 
timer.timeout.connect(loop.quit) 
self.loadFinished.connect(loop.quit) 
self.load(QUrl (url)) 
timer.start(timeout * 1000) 











loop.exec () delay here until download finished 
if timer.isActive(): 
# downloaded successfully 


timer.stop() 
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return self.html() 
else: 

# timed out 

print 'Request timed out: ' + url 


def html (self): 
"""Shortcut to return the current HTML""" 


return self.page().mainFrame().toHtml() 








def find(self, pattern): 
"""Find all elements that match the pattern""" 








return self.page().mainFrame().findAllElements (pattern) 


def attr(self, pattern, name, value): 
"""Set attribute for matching elements""" 
for e in self.find(pattern): 
e.setAttribute(name, value) 


def text(self, pattern, value): 
"""Set attribute for matching elements""" 
for e in self.find(pattern): 
e.setPlainText (value) 


def click(self, pattern): 
"""Click matching elements""" 
for e in self.find(pattern): 
e.evaluateJavaScript("this.click()") 


def wait load(self, pattern, timeout-60): 
"""Wait until pattern is found and return matches"" 





deadline = time.time() + timeout 

while time.time() « deadlin 
self.app.processEvents() 
matches = self.find(pattern) 








if matches: 
return matches 


print('Wait load timed out') 








你 可 能 已 经 注意 到 ,在 download () Ñ wait _load() 方法 








" 





中 增加 了 一 


些 代 码 用 于 处 理 定时 器 。 定 时 器 用 于 跟踪 等 待 时 间 ， 并 在 截止 时 间 到 达 时 取 





I 








| 


消 事件 循环 。 否则 ， 当 出 现 网 络 问题 时 ， 


事件 循环 就 会 无 休止 地 运行 下 去 。 
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下 面 是 使 用 这 个 新 实现 的 类 抓 取 搜索 页 面 的 代码 。 


>>> br = BrowserRender () 


>>> br.download('http://example.python-scraping.com/search') 
>>> br.attr('#search term', 'value', '.') 
>>> br.text('#page size option:checked', '1000') 


>>> br.click('lfsearch') 


>>> elements = br.wait load('fMresults a') 


>>> countries or districts = [e.toPlainText().strip() for e in elements] 


>>> print countries or districts 
['Afghanistan', 'Aland Islands', ... , 'Zambia', 'Zimbabwe'] 


5.4.1 Selenium 


使 用 前 面 小 节 中 的 WebKit 库 ， 








我 们 可 以 自 定义 浏览 器 泻 染 引擎 ， 这 样 就 

















能 完全 控制 想 要 执行 的 行为 。 如 果 不 需 要 这 么 高 的 灵活 性 ， 那 么 还 有 一 个 不 
错 的 更 容易 安装 的 替代 品 Selenium 可 以 选择 ， 它 提供 的 API 接口 可 以 自动 化 
处 理 多 个 常见 浏览 器 。Selenium 可 以 通过 如 下 命令 使 用 pip 安装 。 























pip install selenium 




















为 了 演示 Selenium 是 如 何 运 行 的 ， 我 们 会 把 之 前 的 搜索 示例 重 写 成 
Selenium 的 版 本 。 首 先 ， 创 建 一 个 到 浏览 器 的 连接 。 








>>> from selenium import webdriver 


>>> driver = webdriver.Firefox() 


当 该 命令 运行 时 , 会 弹出 一 个 空 的 浏览 器 窗口 。 不 过 如 果 你 得 到 了 错误 信息 ， 
则 可 能 需要 安装 geckodriver (https://github.com/mozilla/ 








geckodriver/releases), Jff 

















角 保 它 在 你 的 PATH 变量 中 可 用 。 














E E a E a EET 7j 














便 ， 因 为 在 执行 每 条 命令 时 ， 都 可 以 通过 浏览 器 窗口 来 检查 脚本 是 否 依照 预 











期 运行 。 尽 管 这 里 我 们 使 用 的 浏览 器 是 Firefox, Aid Selenium 也 提供 了 连接 
其 他 常见 浏览 器 的 接口 ， 比 如 Chrome 和 IE。 需 要 注意 的 是 ， 我 们 只 能 使 用 
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系统 中 已 安装 浏览 器 的 Selenium 接口 。 


Cp do X 4528.1 fit. Selenium 是 否 支持 你 系统 中 的 浏览 器 ， 以 及 你 可 能 需要 安装 
的 其 他 依赖 或 驱动 ， 请 查阅 Selenium 文档 中 关于 支持 平台 的 介绍 。 








如 果 想 在 选 定 的 浏览 器 中 加 载 网 页 ， 可 以 调用 get () 方法 。 





>>> driver.get('http://example.python-scraping.com/search!) 


然后 ， 设 置 需 要 选取 的 元 素 ， 这 里 使 用 的 是 搜索 文本 框 的 ID 。 此 外 ， 
的 人 
后 ， 我 们 可 以 通过 send keys O 方法 输入 内 容 ， 模 拟 键盘 输入 。 























>>> driver.find element by id('search term').send keys('.') 


为 了 让 所 有 结果 可 以 在 一 次 搜索 后 全 部 返回 ,我 们 希望 把 每 页 显示 的 数量 

设置 为 1000。 但 是 ， 由 于 Selenium 的 设计 初衷 是 与 浏览 器 交互 ， 而 不 是 修改 

网 页 内 容 ， 因 此 这 种 想法 并 不 容易 实现 。 要 想 绕 过 这 一 限制 ， 我 们 可 以 使 用 
JavaScript 语句 直接 设置 选项 框 的 内 容 。 












































>>> js = "document.getElementById('page size').options[1].text = '1000';" 
>>> driver.execute script(js) 


此 时 表单 内 容 已 经 输入 完毕 ， 下 面 就 可 以 单 击 搜索 按钮 执行 搜索 了 。 











>>> driver.find element by id('search').click() 

我 们 需要 等 待 AJAX 请 求 完 成 之 后 才能 加 载 结果 ， 在 之 前 讲解 的 WebKit Sc 
现 中 这 里 是 最 难 的 一 部 分 脚本 。 不 过 幸运 的 是 ，Selenium 为 该 问题 提供 了 一 个 
简单 的 解决 方法 ， 那 就 是 可 以 通过 implicitly wait 0 方法 设置 超时 时 间 。 



































>>> driver.implicitly wait(30) 


此 处 ,我 们 设置 了 30 秒 的 延 时 。 如 果 我 们 要 查找 的 元 素 没有 出 现 , Selenium 
至 多 等 待 30 秒 ， 然 后 就 会 抛 出 异常 。Selenium 还 允许 使 用 显 式 等 待 进行 更 详 
细 的 轮 询 控制 。 
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要 想 选 取 国 家 【或 地 区 ) 链接 ， 我 们 依然 可 以 使 用 WebKit 示例 中 用 过 的 
那个 CSS 选择 器 。 


>>> links = driver.find elements by css selector('#results a') 


然后 ， 抽 取 每 个 链接 的 文本 ， 并 创建 一 个 国家 (或 地 区 ) 列表 。 





>>> countries or districts = [link.text for link in links] 
>>> print(countries or districts) 
['Afghanistan', 'Aland Islands', ... , 'Zambia', 'Zimbabwe'] 





最 后 ， 调 用 close () 方法 关闭 浏览 

>>> driver.close() 

本 示例 的 源 代 码 位 于 本 书 源码 文件 的 chp5 文件 夹 中 ， 其 名 为 
selenium search.py。 如 果 想 进一步 了 解 Selenium 这 个 Python 库 ， 可 以 
通过 https://selenium-python.readthedocs .org/ 获 取 其 文档 。 


1. Selenium 与 无 界面 浏览 


尽管 通过 常见 浏览 器 安装 和 使 用 Selenium 相当 方便 、 容 易 ， 但 是 在 服 
务 器 上 运行 这 些 脚 本 时 则 会 出 现 问题 。 对 于 服务 器 而 言 ， 更 常 使 用 的 是 无 
界面 浏览 器 。 它 们 往往 也 比 功 能 完整 的 Web 浏览 器 更 快 且 更 具 可 配置 性 。 


本 书 出 版 时 最 流行 的 无 界面 浏览 器 是 PhantomJS 。 它 通过 自身 的 基于 
JavaScript 的 WebKit 引擎 运行 。PhantomJS 可 以 在 大 多 数 服务 器 中 很 容易 地 进行 
安装 ， 并 且 可 以 遵照 最 新 的 下 载 说 明 在 本 地 安装 。 

在 Selenium 中 使 用 PhantomJS 只 需要 进行 一 个 不 同 的 初始 化 。 












































>>> from selenium import webdriver 
>>> driver = webdriver.PhantomJS() # note: you should use the phantomjs 
executable path here 

# if you see an error (e.g. 
PhantomJS('/Downloads/pjs')) 


你 能 注意 到 的 第 一 个 区 别 是 此 时 不 会 打开 浏览 器 窗口 ， 但 是 已 经 有 
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PhantomJS 实例 在 运行 ,要 想 测 试 我 们 的 代码 , 可 以 访问 一 个 页 面 并 进行 截图 。 


>>> driver.get('http://python.org!) 
>>> driver.save screenshot('../data/python website.png') 
True 


现在 当 你 打开 保存 的 PNG 文件 时 ， 可 以 看 到 PhantomJS 浏览 器 演 染 的 结 
R, WB 5.6 所 示 。 








图 5.6 
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我 们 注意 到 这 是 一 个 长 窗口 。 我 们 可 以 通过 使 用 maximize window 或 
通过 set window size 设置 窗口 大 小 对 其 进行 改变 ， 无 论 哪 种 用 法 都 已 经 
在 Selenium Python documentation on the WebDriver API Hf 
行 了 详细 的 文档 说 明 。 

对 于 任何 Selenium 问题 的 调试 来 说 ， 截 图 功能 都 是 很 有 用 的 ， 即 使 是 在 
你 对 真实 浏览 器 使 用 Selenium 时 一 一 有 时 候 因为 一 些 页 面 加 载 缓慢 ， 或 是 网 
站 的 页 面 结构 或 JavaScript 发 生变 化 ,可 能 会 导致 脚本 运行 失败 。 当 发 生 错 误 
时 正好 有 页 面 的 截图 则 会 非常 有 帮助 。 此 外 ， 你 可 以 使 用 驱动 的 
page source 属性 保存 或 查看 当前 页 面 的 源 代 码 。 

使 用 类 似 Selenium 这 样 基于 浏览 器 的 解析 器 的 另 一 个 原因 是 ， 它 表现 得 
更 加 不 像 仆 息 。 一 些 网 站 使 用 类 似 蜜 缸 的 防 爬 技术 ， 在 该 网 站 的 页 面 上 可 能 
会 包含 隐藏 的 有 毒 链接 ， 当 你 通过 脚本 点 击 它 时 ， 将 会 使 你 的 爬虫 被 封禁 。 
对 于 这 类 问题 ， 由 于 Selenium 基于 浏览 器 的 架构 ， 因 此 可 以 成 为 更 加 强大 的 
和 候 虫 。 当 你 不 能 在 浏览 器 中 点 击 或 看 到 一 个 链接 时 ， 你 也 无 法 通过 Selenium 
与 其 进行 交互 。 此 外 ， 你 的 头 部 将 包含 你 使 用 的 确切 浏览 器 ， 而 且 你 还 可 以 
使 用 正常 浏览 器 的 功能 ， 比 如 cookie、 会 话 以 及 加 载 图 片 和 交互 元 素 ， 这 些 
功能 有 时 需要 加 载 特定 的 表单 或 页 面 。 如 果 你 的 仆 虫 必须 与 页 面 进行 交互 ， 
并 且 行 为 需要 更 加 “类 似 人 类 ” 那么 Selenium 是 一 个 不 错 的 选择 。 


























































































































5.5 ”本 章 小 结 


本 章 介 绍 了 两 种 抓 取 动态 网 页 数据 的 方法 。 第 一 种 方法 是 使 用 浏览 器 工具 
对 动态 网 页 进行 道 向 工程 ， 第 二 种 方法 是 使 用 浏览 器 泻 染 引擎 为 我 们 触发 
JavaScript 事件 。 我 们 首先 使 用 WebKit 创建 自 定 义 浏 览 器 ， 然 后 使 用 更 高 级 
的 Selenium 框架 重新 实现 该 息 虫 。 

浏览 器 演 染 引擎 能 够 为 我 们 节省 了 解 网 站 后 端 工作 原理 的 时 间 , 但 是 该 方 
法 也 有 一 些 劣势 。 演 染 网 页 增加 了 开销 ， 使 其 比 单纯 下 载 HTML. 或 使 用 API 
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调用 更 慢 。 另 外 ， 使 用 浏览 器 演 染 引擎 的 方法 通常 需要 轮 询 网 页 来 检查 是 否 
己 经 加 载 生成 的 HTML， 这 种 方式 非常 脆弱 ， 在 网 络 较 慢 时 会 经 常 失败 。 

我 一 般 将 浏览 器 演 染 引擎 作为 短期 解决 方案 , 此 时 长 期 的 性 能 和 可 靠 性 并 
不 算 重要 ;而 作为 长 期 解决 方案 ， 我 会 举 试 对 网 站 进行 逆向 工程 。 当 然 ， 一 
些 网 站 可 能 需要 “类 似 人 类 ”的 交互 或 是 拥有 封闭 的 API， 此 时 就 意味 着 浏 
览 器 实现 很 可 能 是 获取 内 容 的 唯一 途径 了 。 

在 下 一 章 中 ， 我 们 将 介绍 如 何 与 表单 进行 交互 ， 以 及 如 何 使 用 cookie 登 
录 网 站 并 编辑 内 容 。 
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在 前 面 几 章 中 ， 我 们 下 载 的 静态 网 页 返回 的 是 相同 的 内 容 。 而 在 本 章 中 ， 
我 们 将 与 网 页 进行 交互 ， 根 据 用 户 输 入 返回 对 应 的 内 容 。 本 章 将 包含 如 下 几 
个 主题 : 

e 发 送 POST 请 求 提交 表单 ; 

e 使 用 cookie 和 会 话 登 录 网 站 ; 

e 使 用 Selenium 用 于 表单 提交 。 

想 要 和 表单 进行 交互 , 就 需要 拥有 可 以 登录 网 站 的 用 户 账 号 。 现 在 我 们 需 
要 手工 注册 账号 ， 其 网 址 为 nttp://example.python-scraping.com/ 
user/register。 本章 目 前 还 无 法 实现 自动 化 注册 表单 ,不 过 在 下 一 章 中 我 
们 将 会 介绍 处 理 验证 码 图 像 的 方法 ， 从 而 实现 自动 化 表单 注册 。 







































































表单 方法 

HTML 定义 了 两 种 向 服务 器 提交 数据 的 方法 ， 分 别 是 GET 和 POST。 使 用 

GET 方法 时 ， 会 将 类 似 ?name1l=valuel&name2=value2 的 数据 添加 到 

qD URL v, 这 串 数据 被 称 为 “查询 字符 囊 ”。 由 于 浏览 器 存在 URL 长 度 限制 ， 
因此 这 种 方法 只 适用 于 少量 数据 的 场景 。 另 外 ， 这 种 方法 通常 应 当 用 于 从 
服务 器 端 获取 数据 ， 而 不 是 修改 数据 ， 不 过 开发 者 有 时 会 忽视 这 一 规定 。 
而 在 使 用 POST 请 求 时 ， 数 据 在 请 求 体 中 发 送 ， 而 不 是 在 URL 中 。 敏 感 数 
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据 只 应 使 用 POST 请 求 进行 发 送 ， 以 避免 将 数据 暴露 在 URL P. POST X 
据 在 请 求 体 中 如 何 表示 需要 依赖 于 所 使 用 的 编码 类 型 。 服 务 器 端 还 支持 其 

他 HTTP 方法， 比如 PUT 和 DELETE Zik, FX ee 
表单 中 均 不 支持 。 

















6.1 登录 表单 


我 们 最 先 要 实施 自动 化 提交 的 是 登录 表单 ， 其 网 址 为 http://example. 
python-scraping.com/user/login。 要 想 理 解 访 表单， 我 们 可 以 使 用 
浏览 器 的 开发 者 工具 。 如 果 使 用 完整 版 的 Firebug 或 者 Chrome a 
我 们 只 需 提交 表单 就 可 以 在 网 络 选 项 卡 中 检查 传输 的 数据 (类 似 我 们 在 第 
章 中 做 的 操作 )。 不 过 ， 如 果 我 们 使 用 “Inspect Element” 功 能 的 话 ， a 
到 关于 表单 的 信息 ， 如 图 6.1 所 示 。 


€ cio *tjiO ^ ummamol: 














Example web scraping 
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与 如 何 发 送 表单 有 关 的 几 个 重要 组 成 部 分 ,分别 是 form 标签 的 action、 
enctype 和 method 属性 ， 以 及 两 个 input R CER 6.1 中 ， 我 们 扩展 了 
"password" 域 )。action 属性 用 于 设置 表单 数据 提交 的 HITP 地 址 ， 本 例 中 


为 #， 也 




















就 是 当前 URL。enctype 属性 《或 编码 类 型 ) 用 于 设置 数据 提交 的 





编码 ， 本 例 中 为 application/x-www-form-urlencoded。 而 method 














属性 被 设 为 post, 表示 在 请 求 体 中 使 用 PosT 方法 向 服务 器 端 提 交 表 单数 据 。 














对 于 每 个 input 标签 ， 最 重要 的 属性 是 name， 它 用 于 设 定 PosT 数据 提交 
到 服务 器 端 时 某 个 域 的 名 称 。 


0 


>[ 3H 
FE 


f 通 用 户 通过 浏览 器 打开 该 网 页 时 , 需要 输入 邮箱 和 密码 , 然后 单 击 登 








表单 编码 

当 表单 使 用 POST 方法 时 , 表单 数据 提交 到 服务 器 端 之 前 有 两 种 编码 类 型 可 供 
选择 。 默 认 编 码 类 型 为 application/x-www-form-urlencodedqd, 
此 时 所 有 非 字 母 数字 类 型 的 字符 都 需要 转换 为 十 六 进 制 的 ASCH 值 。 但 是 ， 
如 果 表 单 中 包含 大 量 非 字母 数字 类 型 的 字符 时 ， 这 种 编码 类 型 的 效率 就 会 非常 
低 , 比 如 处 理 二 进 制 文件 上 传 时 就 存在 该 问题 ,此 时 就 需要 定义 multipart/ 
formdata 作为 编码 类 型 。 使 用 这 种 编码 类 型 时 ， 不 会 对 输入 进行 编码 ， 
而 是 使 用 MIME 协议 将 其 作为 多 个 部 分 进行 发 送 ， 和 邮件 的 传输 标准 相同 。 





录 按钮 将 数据 提交 到 服务 端 。 如 果 登 录 成 功 ， 则 会 跳 转 到 主页 ， 否则， 会 跳 














转 回 登 录 页 。 下 面 是 尝试 自动 化 处 理 该 流程 的 初始 版 本 代码 。 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 





from urllib.parse import urlencode 

from urllib.request import Request, urlopen 

LOGIN URL = 'http://example.python-scraping.com/user/login' 
LOGIN EMAIL = 'example(8python-scraping.com' 

LOGIN PASSWORD = 'example' 

data = ('email': LOGIN EMAIL, 'password': LOGIN PASSWORD] 
encoded data - urlencode (data) 

request = Request(LOGIN URL, encoded data.encode('utf-8')) 
response - urlopen (request) 

print(response.geturl()) 


'http://example.python-scraping.com/user/login' 
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ERREF, 我 们 设置 了 邮件 和 密码 域 , 并 将 其 进行 了 urlencode 编码 ， 
然后 将 这 些 数据 提交 到 服务 器 端 。 当 执行 最 后 的 打印 语句 时 ， 输 出 的 依然 是 
登录 页 的 URL， 也 就 是 说 登录 失败 了 。 你 会 注意 到 ， 我 们 还 必须 将 已 经 编码 
的 数据 作为 字 节 再 次 进行 编码 ， 以 便 urllib 能 够 接受 它 。 

我 们 可 以 使 用 requests 以 几 行 代码 实现 同样 的 处 理 。 


























>>> import requests 

>>> response = requests.post (LOGIN URL, data) 

>>> print(response.url) 
'http://example.python-scraping.com/user/login' 


requests 库 可 以 让 我 们 显 式 定 义 要 POST 的 数据 , 并 且 可 以 在 其 内 部 进 
行 编码 。 不 过 遗憾 的 是 ， 这 段 代 码 仍 然 会 登录 失败 。 

这 是 因为 登录 表单 十 分 严格 ， 除 邮箱 和 密码 外 ， 还 需要 提交 另外 几 个 域 。 
我 们 可 以 从 图 6.1 的 最 下 方 找 到 这 几 个 域 , 不 过 由 于 设置 为 hidden， 所 以 不 
会 在 浏览 器 中 显示 出 来 。 为 了 访问 这 些 隐藏 域 ， 下 面 将 使 用 第 2 章 中 介绍 的 
lxml 库 编 写 一 个 函数 ， 提 取 表 单 中 所 有 input 标签 的 详情 。 



































from lxml.html import fromstring 


def parse form(html): 





tree - fromstring (html) 
data = {} 
for in tree.cssselect('form input'): 


if e.get('name!): 
data[e.get('name')] = e.get('value') 
return data 


上 述 代码 使 用 1xmil 的 CSS 选择 器 过 历 表单 中 所 有 的 input 标签 ,然后 
以 字典 的 形式 返回 其 中 的 name 和 value 属性 。 对 登录 页 运行 该 函数 后 ， 得 
到 的 结果 如 下 所 示 。 

















>>> html 
>>> form 


requests.get(LOGIN URL) 
parse form(html.content) 
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>>> print(form) 
(' formkey': 'a3cf2b3b-4f24-4236-a9f1-8a51159dda6d', 


' formname': 'login', 
' next': '/', 
'email': '', 
'password': '', 
'remember me': 'on'] 








其 中 ，_formkey 属性 是 这 里 的 关键 部 分 ， 它 包含 一 个 唯一 的 ID， 服 务 
器 端 使 用 该 唯一 的 ID 来 避免 表单 被 多 次 提交 的 问题 。 每 次 加 载 网 页 时 ， 都 会 
产生 不 同 的 ID， 然 后 服务 器 端 就 可 以 通过 这 个 给 定 的 ID 来 判断 表单 是 否 已 
经 提交 过 。 下 面 是 提交 了 _formkey 及 其 他 隐藏 域 的 新 版 本 登录 代码 。 














>>> html = requests.get(LOGIN URL) 

>>> data = parse form(html.content) 

>>> data['email'] = LOGIN EMAIL 

>>> data['password'] = LOGIN PASSWORD 

>>> response = requests.post(LOGIN URL, data) 
>>> response.url 

'http: //example.python-scraping.com/user/login' 


很 遗憾 ， 这 个 版 本 依然 不 能 正常 工作 ， 因 为 它 再 一 次 返回 了 登录 URL. 
这 是 因为 我 们 缺失 了 男 一 个 必要 的 组 成 部 分 一 一 浏览 器 cookie。 当 普通 用 户 
加 载 登录 表单 时 ，_formkey 的 值 将 会 保存 在 cookie 中 ， 然 后 该 值 会 与 提交 
的 登录 表单 数据 中 的 _formkey 值 进行 对 比 。 我 们 可 以 通过 response 对 象 
来 查看 cookie 及 它们 的 值 。 

















>>> response.cookies.keys() 

['session data places', 'session id places'] 

>>> response.cookies.values() 

['"8bfbd84231e6d4dfe98fd4fa2b139e7f:NalmnUQOoZtHRItjUOncTrmC30PeJpDgmA 
gXZEwLCtRIRvKyFWBMeDnYQAIbWhKmnqVpdeo5Xbh41g87MgYB- 

oOpLysB8zyQci2FhhgUYFA77ZbTOhD300NQ7aN _ 

BaFVrHSA4DYSh297eTYHIhNagDjFRSA4Nny 8KaAFdcOV3a3jw pVnpOg 

2995n2VvVqdlgug5pmjBjCNofpAGver3buIMxKsDVA4Ay3TiFO97t2bSFKgghayz2z9jn iOox2yn 

8015nBw7mhVEndlx62jrVCAVWJBMLjamuDGO1XFNFgMwwZBkLvYaZGMRbrls cQh"', 

'True'] 
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你 也 可 以 通过 Python 解释 器 进行 查看 ，response.cookies 是 一 个 特 
殊 的 对 象 类 型 ， 称 为 cookie jar。 该 对 象 也 可 以 被 传 入 新 的 请 求 中 。 让 我 们 带 
上 cookie 重 试 一 次 提交 。 
>>> second response = requests.post(LOGIN URL, data, cookies-html.cookies) 
>>> second response.url 
'http://example.python-scraping.com/' 
什么 是 cookie? 
e cookie 是 网 站 在 HTTP 响应 头 中 传输 的 少量 数据 ， 形 如 Set-Cookie: 
session id=example;。 浏 览 器 将 会 存储 这 些 数据 ， 并 在 后 续 对 该 网 站 


的 请 求 头 中 包含 它们 。 这 样 就 可 以 让 网 站 识别 和 跟踪 用 户 。 


这 次 我 们 终于 成 功 了 ! 服务 器 端 接受 了 我 们 提交 的 表单 值 ，response 
的 URL 是 主页 。 请 注意 ， 我 们 需要 使 用 来 自 初 始 请 求 且 与 表单 数据 正确 匹配 的 
cookie。 该 代码 片段 以 及 本 章 中 其 他 登录 示例 的 代码 位 于 本 书 源码 文件 的 chp6 
文件 夹 中 。 

















6.1.1 从 浏览 器 加 载 cookie 
从 前 面 的 例子 中 可 以 看 出 ， 如 何 回 服务 器 提交 它 所 需 的 登录 信息 ， 有 时 候 会 
很 复杂 。 科 好， 对 于 这 种 麻烦 的 网 站 还 有 一 个 变通 方法 ， 即 先 使 用 浏览 器 手工 
执行 登录 ， 然 后 在 Python 脚本 中 复 用 之 前 得 到 的 cookie， 从 而 实现 自动 登录 。 
不 同 浏览 器 存储 cookie 的 格式 不 同 ， 不 过 Firefox 和 Chrome 都 使 用 了 一 
种 可 以 通过 Python 解析 的 易 访问 格式 : sqlite 数据 库 。 














SQLite 是 一 个 非常 流行 的 开源 SQL 数据 库 。 它 可 以 很 容易 地 在 很 多 平台 上 进行 
D AK. mE MacOSX 中 是 预 安 装 的 。 如 果 你 想 在 自己 的 操作 系统 中 下 载 并 安装 
它 ， 可 以 查看 它 的 the Download page， 或 搜索 针对 你 的 操作 系统 的 指令 。 





如 果 想 要 查看 你 的 cookie， 可 以 (如果 已 安装 的 话 ) 运行 sqlite3 命令 ， 
并 附带 cookie 文件 的 路 径 作为 参数 (如 下 所 示 为 Chrome 的 示例 )。 
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$ sqlite3 [path to your chrome browser]/Default/Cookies 
SQLite version 3.13.0 2016-05-18 10:57:30 

Enter ".help" for usage hints. 

sqlite» .tables 

cookies meta 


你 需要 先 找 到 浏览 器 配置 文件 的 路 径 。 你 可 以 通过 搜索 你 的 文件 系统 , 或 
是 在 网 上 搜索 你 的 浏览 器 及 操作 系统 来 找到 它 。 如 果 你 想 了 解 SQLite 的 表格 
模式 ， 可 以 使 用 .schema， 并 选择 类 似 其 他 SQL 数据 库 的 语法 函数 。 


除了 在 sqlite 数据 库 中 存储 cookie 外 ， 一 些 浏览 器 (如 Firefox) 还 会 
将 会 话 直 接 存储 在 JSON 文件 中 ， 这 种 格式 可 以 很 容易 地 使 用 Python 进行 解 
析 。 另 外 ， 还 有 一 些 浏览 器 扩展 ， 比 如 a ER, 可 以 导出 会 话 到 JSON 
文件 中 。 对 于 登录 而 言 ， 我 们 只 需要 找到 合适 的 会 话 ， 其 存储 结构 如 下 所 示 。 























("windows": [... 
"Cookies": [ 

("host":"example.python-scraping.com", 
"value":"514315085594624:e5e9a0db-5b1f-4c66-a864", 
"path":"/", 

"name":"session id places"] 
e] 
1) 


下 面 的 函数 可 以 用 于 将 Firefox 会 话 解析 为 Python 字典 , 之 后 我 们 可 以 将 
其 提供 给 requests FF. 





def load ff sessions(session filename): 
cookies = {} 
if os.path.exists (session filename): 
json data = json.loads (open (session filename, 'rb').read()) 
for window in json data.get('windows', []): 
for cookie in window.get('cookies', []): 





cookies[cookie.get('name')] = cookie.get('value') 
else: 


print('Session filename does not exist:', session filename) 





return cookies 
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这 里 有 一 





个 比较 麻烦 的 地 方 ， 不同 操作 系统 中 ，Firefox 存储 会 话 文件 的 


位 置 不 同 。 在 Linux 系统 中 ， 其 路 径 如 下 所 示 。 


^/.mozilla/firefox/*.default/sessionstore.js 


在 OSX 中 ， 其 路 径 如 下 所 示 。 


^/Library/Application Support/Firefox/Profiles/*.default/ 


sessionstore.js 


而 在 Windows Vista 及 以 上 版 本 系统 中 ， 其 路 径 如 下 所 示 。 


SAPPDATAS/Roaming/Mozilla/Firefox/Profiles/*.default/sessionstore.js 


下 面 是 返回 会 


话 文件 路 径 的 辅助 函数 代码 。 


import os, glob 
def find ff sessions(): 
paths = [ 





'«/.mozilla/firefox/*.default', 
'^/Library/Application Support/Firefox/Profiles/*.default', 
'SAPPDATAS/Roaming/Mozilla/Firefox/Profiles/*.default' 


path in paths: 
filename - os.path.join(path, 'sessionstore.js') 
matches = glob.glob(os.path.expanduser (filename) ) 
if matches: m 

return matches[0] 





需要 注意 的 是 ， 这 里 使 用 的 glob 模块 会 返回 指定 路 径 中 所 有 匹配 的 文 


件 


o 





下 面 是 修改 后 使 用 浏览 器 cookie 登录 的 代码 片段 。 


>>> session filename = find ff sessions() 
>>> cookies = load ff sessions(session filename) 


>>> url 


= 'http://example.python-scraping.com' 


>>> html = requests.get(url, cookies-cookies) 





要 检查 会 











话 是 否 加 载 成 功 , 这 次 我 们 无 法 再 依靠 登录 跳 转 了 。 这 时 我 们 需 

















要 抓 取 新 生成 的 HTML， 检 查 是 否 存在 登录 用 户 标 签 。 如 果 得 到 的 结果 是 
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Login, 则 说 明 会 话 没 能 正确 加 载 。 如 果 出 现 这 种 情况 , 你 就 需要 使 用 Firefox 
浏览 器 确认 一 下 是 否 已 经 成 功 登 录 示 例 网 站 。 我 们 可 以 使 用 浏览 器 工具 查看 
网 站 的 User 标签 ， 如 图 6.2 所 示 。 








D Example webscra; x 


€ cio *,O* wm" à mci 





Euvamnla anl anraniin ra 





[x 口 Elements Console Sources Network Timeline Profiles Application Security Audits AdBlock S 9€ 
> <head>..</head ^| Styles» 
Y <body: 

!-- Navbar 一 一 -- 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 ---- 一 一 一 --> :hov @ .cls 


v<div class-"navbar navbar-inverse 











><div class-"flash style="display: block; ">-</div 1 
Y<div class-"navbar-inrer 
::before 
v<div class="container 
::before 
<!-- the next tag is necessary for bootstrap menus, do not remove 
p<button type="button" class="btn brn-navbar” data-toggle="collapse" data-target--.nav- .navbar- 
collapse" style-'"display:none;'-..-/button inverse 
w-ul id-'navbar" class="nav pull-right N .nav>li>a { 
v-li class="dropdown color: 
v=<a class="dropdown- toggle data-toggle-'dropdown" href="#* rel="nofollow 国 #999 
J e Tes text- 
shadow 
/a in 
p<ul class-"dropdown-menu" style="display: none; ».-/ul Biraba.. 
/Li } 
/ul 
><div class-"nav"».-/div 
«!--/.nav-collapse --> 
::afte 
/div e 
::after 
/div pias 
px 
/div 10px 


«!--/top navbar 


><div class-"container"-.-/div - 8 
html body div div.navbarinner div.container  ulitnavbar.nav.pullright lidropdown — a.dropdown-toggle BESAS] text- Y 


i Console 
© w top v € Preserve log 


> 

















图 6.2 








浏览 器 工具 中 显示 该 标签 位 于 ID 为 “navbar” 的 <ul> 标 签 中 ， 我 们 可 以 
使 用 第 2 HE. i 2H 如 的 lxml 库 抽 取 其 Lr] 的 信息 JU o 


>>> tree = fromstring(html.content) 
>>> tree.cssselect('ulinavbar li a') [0] .text content() 
'Welcome Test account' 


本 节 中 的 代码 非常 复杂 ， 而 且 只 支持 从 Firefox 浏览 器 中 加 载 会话 。 有 很 
多 浏览 器 附加 组 件 和 扩展 支持 保存 会 话 到 JSON 文件 ， 因 此 当 你 需要 会 话 数 


一 127 | 一 


异步 社区 会 员 sergeant(15779577768) 专 享 尊重 版 权 








第 6 章 表单 交互 


据 用 于 登录 时 ， 可 以 探索 它们 作为 你 的 可 选项 。 


在 下 一 节 中 ， 我 们 将 看 到 requests 库 关 于 会 话 的 更 高 级 使 用 (其 文档 
地 址 为 https://docs.python-requests.org/en/master/user/ 
adqvancedq/#session-objects)， 可 以 让 我 们 在 使 用 Python 进行 抓 取 时 
更 轻松 地 利用 浏览 器 会 话 。 





6.2 支持 内 容 更 新 的 登录 脚本 扩展 


既然 我 们 可 以 通过 脚本 进行 登录 , 那么 我 们 也 可 以 继续 扩展 该 脚本 , 添加 
代码 使 其 能 够 更 新 国家 《或 地 区 ) 数据 。 本 节 中 使 用 的 代码 位 于 本 书 源码 文 
件 的 chp6 文件 夹 中 ， 其 名 分 别 为 edit .py 和 login.py。 


如 图 6.3 所 示 ， 每 个 国家 (或 地 区 ) 页 面 底 部 均 有 一 个 Edit 链接 。 








Flag: = | 
E mJ 

Area: 244,820 square kilometres 

Population: 62,348,447 

Iso: GB 

Country (District): United Kingdom 

Capital: London 

Continent: EU 

Tid: .uk 

Currency Code GBP 

Currency Name: Pound 

Phone: 44 

Postal Code Format: s ig aas sa ooo «aeo 
* Gg] eoe] #@@IGIROAA 


Postal Code Regex: ^(([A-Zd(2YA-ZY2))K((A-Zhd(3)A-Z 2) [A- 
Zy(2»d(2)[A-ZY(2))((A-Z) (2) d (3)A-Z1(2))(IA- 
Z]d[A-Z|d[A-ZY(2))I([A-ZK2) d[A-ZM[A-Z] 











(2) (GIROAA))S 
Languages: en-GB,cy-GB,gd 
Neighbours: IE 
Edit 
图 6.3 





在 登录 情况 下 , 点 击 该 链接 将 会 前 往 另 一 个 页 面 ,在 该 页 面 中 所 有 国家 (或 
地 区 ) 属性 都 可 以 进行 编辑 ， 如 图 6.4 所 示 。 
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Flag: -一 | 


Em 
Area 244820.00 
Population: 62348447 
Iso: GB 
Country (District): United Kingdom 
Capital: London 
Continent: EU 
Tid: .uk 
Currency Code: GBP 
Currency Name: Pound 
Phone: 44 


Postal Code Format: | G4 «ooi #@@I@@# sooo toa 


Postal Code Regex: | A((A-ZJd{2JA-ZH2)IA-ZJdf3J[A-ZI2))MIA-ZH2) 














Languages: en-GB,cy-GB,gd 
Neighbours: IE 
Update 
Kl 6.4 











这 里 我 们 编写 一 个 脚本 ， 每 次 运行 时 ， 都 会 使 该 国家 (或 地 区 ) 的 人 口 数 
量 加 1。 首 先是 重 写 login 函数 ， 以 利用 Session 对 象 。 这 样 可 以 使 我 们 
的 代码 更 加 整洁 ， 并 且 可 以 让 我 们 保持 当前 会 话 的 登录 状态 。 新 的 代码 如 下 
所 示 。 





def login(session-None): 





""" Login to example website. 
params: 
Session: request lib session object or None 
returns tuple(response, session) 





CELEI 


if session is None: 
html = requests.get(LOGIN URL) 
else: 
html = session.get(LOGIN URL) 
data = parse form(html.content) 
data['email'] = LOGIN EMAIL 
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章 ”表单 交互 
data['password'] = LOGIN PASSWORD 
if session is None: 
response - requests.post(LOGIN URL, data, cookies-html.cookies) 
else: 


response - session.post(LOGIN URL, data) 
assert 'login' not in response.url 





return response, session 


现在 无 论 是 否 存在 会 话 , 我 们 的 登录 表单 都 可 以 正常 工作 。 默认 情况 下 不 

















使 用 会 话 ， 并 期 望 用 户 使 用 cookie 来 保持 登录 。 不 过 ， 对 于 一 些 表单 来 说 会 





有 问题 ， 所 以 在 扩展 登录 函数 时 ， 会 话 功能 十 分 有 用 。 下 一 步 ， 我 们 需 





通 


58 








过 复 用 parse form O 函数 ， 抽 取 国 家 (或 地 区 ) 的 当前 人 口 数 量 值 。 


>>> from chp6.login import login, parse form 

>>> session = requests.Session() 

>>> COUNTRY URL = 'http://example.python-scraping.com/edit/United-Kingdom-239' 
>>> response, session = login(session-session) 

>>> country or district html = session.get(COUNTRY OR DISTRICT URL) 
>>> data = parse form(country or district html.content) 

>>> data 

(' formkey': 'd9772d457-7bd7-4572-afbd-b1447bf3e5bd', 

' formname': 'places/2575175', 

'area': '244820.00', 

'capital': 'London', 

'continent': 'EU', 

'country or district': 'United Kingdom', 

'currency code': 'GBP', 

'currency name': 'Pound', 

'id': '2575175', 

'iso': 'GB', 

'languages': 'en-GB,cy-GB,gd', 

'neighbours': 'IE', 

'phone': '44', 

'population': '62348448', 

'postal code format': '@# #CQ|Q## #CQICOCH #GG|GG## #CCICH#A #Q@elee#e 
#@@ |GIROAA', 

'postal code regex': '^(([A-Z]d(2) [A-Z] (21) | ([A-Z]d(3) [A-Z] {2})| ([AZ] ( 
2}d{2} [A-2] {2}) | ([A-Z1 (2) 4 (3) [A-2] {2}) | ([A-Z] erzd [A-Z] d[A-2] (2)) | ([AZ] ( 
2)d[A-Z]d[A-2] {2}) | (GIROAA) ) $' , 

'tld': '.uk') 
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然后 为 人 口 数量 加 1， 并 将 更 新 提交 到 服务 器 端 。 


>>> data['population'] = int(data['population']) + 1 
>>> response = session.post(COUNTRY OR DISTRICT URL, data) 


当 我 们 再 次 回 到 国家 (或 地 区 ) 页 时 ， 可 以 看 到 人 口 数量 已 经 增长 到 
62,348,449， 如 图 6.5 所 示 。 











Example web scraping 
website 








Flag: > -一 
ke L 
Area: 244,820 square kilometres 
Population: 62,348,449 
Iso: GB 
Country (District): United Kingdom 
Capital: London 
Continent: EU 
Tid: .uk 








图 6.5 














读者 可 以 对 任何 字段 随意 进行 修改 和 测试 , 因为 网 站 所 用 的 数据 库 每 个 小 
时 都 会 将 国家 《或 地 区 ) 数据 恢复 为 初始 值 ， 以 保证 数据 正常 。 在 the edit 
script 中 还 包含 修改 货币 字段 的 代码 ， 可 以 作为 男 一 个 例子 来 使 用 。 你 还 
可 以 修改 其 他 国家 《或 地 区 ) 的 信息 用 于 练习 。 

需要 注意 的 是 ， 严格 来 说 ， 本 例 并 不 算是 网 络 息 虫 , 而 是 广义 上 的 网 络 机 
器 人 。 这 里 使 用 的 表单 技术 同样 可 以 应 用 于 访问 你 想 抓 取 数 据 的 复杂 表单 的 
交互 当中 。 请 确保 将 新 的 自动 化 表单 的 力量 用 于 良好 的 用 途 ， 而 不 是 垃圾 邮 
件 或 恶意 内 容 机 器 人 。 
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6.3 使 用 Selenium 实现 自动 化 表单 处 理 





尽管 我 们 的 例子 现在 已 经 可 以 正常 运行 了 , 但 是 我 们 会 发 现 每 个 表单 都 需 
要 大 量 的 工作 和 测试 。 我 们 可 以 使 用 第 5 章 中 介绍 的 Selenium 减轻 这 方面 的 
工作 。 由 于 Selenium 是 基于 浏览 器 的 解决 方案 ， 因 此 它 可 以 模拟 许多 用 户 交 
互 操作 ， 包 括 点 击 、 滚 动 以 及 输入 。 如 果 你 通过 类 似 PhantomJS 的 无 界面 济 
览 器 使 用 Selenium， 那 么 你 还 能 并 行 及 扩展 你 的 处 理 过 程 ， 因 为 它 比 完整 浏 
览 器 的 开销 要 更 少 一 些 。 















































使 用 完整 的 浏览 器 对 于 “人 类 化 ”交互 来 说 同样 是 个 很 好 的 解决 方案 ， 尤 
其 是 当 你 使 用 的 是 知名 浏览 器 ， 或 类 似 浏 览 器 的 头 部 时 ， 可 以 将 你 与 其 他 
更 像 机 器 人 的 标识 区 分 开 。 

使 用 Selenium 重 写 我 们 的 登录 和 编辑 脚本 相当 简单 ， 不 过 我 们 必须 先 查 
看 页 面 ， 找 到 要 使 用 的 CSS 或 XPath 标识 。 通 过 浏览 器 工具 进行 该 操作 时 ， 
我 们 将 会 注意 到 对 于 登录 表单 和 国家 (或 地 区 ) 编辑 表单 来 说 ， 登 录 表 单 拥 
有 易于 识别 的 CSS ID。 现在 ， 我 们 可 以 使 用 Selenium 重 写 登 录 和 编辑 功能 。 

首先 ， 编 写 获取 驱动 以 及 登录 的 方法 。 
































from selenium import webdriver 





from selenium.webdriver.common.keys import Keys 


from nium.webdriv 





.common.by import By 





sel r 
from selenium.webdriver.support.ui import WebDriverWait 
sel 工 





from nium.webdriv 





.Support import expected conditions as EC 


def get driver(): 
try: 
return webdriver.PhantomgJS() 








except Exception: 





return webdriver.Firefox() 


def login(driver): 
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6.3 使 用 Selenium 实现 自动 化 表单 处 理 


driver.get(LOGIN URL) 
driver.find element by id('auth user email').send keys (LOGIN EMAIL) 





driver.find element by id('auth user password').send keys( 
LOGIN PASSWORD + Keys.RETURN) 
pg loaded - WebDriverWait(driver, 10).until( 














EC.presence of element located((By.ID, "results"))) 





assert 'login' not in driver.current url 


AXE, get driver 函数 先 尝试 获得 PhantomJS 的 驱动 ， 因 为 它 速度 
ER, 并且 在 服务 器 上 安装 更 加 容易 。 如 果 获 取 失 败 , 则 使 用 Firefox. login 
函数 使 用 作为 参数 传递 的 driver 对 象 ， 并 使 用 浏览 器 驱动 在 第 一 次 加 载 页 
面 时 登录 ， 然 后 使 用 驱动 的 send keys 方法 同 识别 出 的 待 输入 元 素 中 写 入 
内 容 。Keys .RETURN 发 送 的 是 回 车 键 的 信号 ， 在 许多 表单 中 该 键 都 会 被 映 
射 为 提交 表单 。 

我 们 还 使 用 了 Selenium 的 显 式 等 待 (WebDriverWait 以 及 表示 期 望 条 
件 的 ac)， 这 样 我 们 可 以 告知 浏览 器 进行 等 待 ， 直 到 遇 到 指定 的 元 素 或 条 件 。 
在 本 例 中 ， 我 们 知道 登录 后 的 主页 显示 中 包含 ID X “results” H CSS 元 
素 。WebDriverWait 对 象 将 会 为 该 元 素 的 加 载 等 待 10 秒 钟 的 时 间 ， 超 过 该 
时 间 后 抛 出 异常 。 我 们 可 以 很 容易 地 关闭 该 等 待 ， 或 是 使 用 其 他 期 望 条 件 来 
匹配 我 们 当前 加 载 的 页 面 行为 。 



























































想 要 了 解 更 多 关于 Selenium 显 式 等 待 的 知识 ， 我 推荐 你 阅读 其 Python 版 本 的 

文档 ， 地 址 为 http://selenium-python.readthedocs.io/ 
qD waits.html。 显 式 等待 优 于 隐 式 等 待 ， 因 为 你 可 以 明确 告知 Selenium 

你 想 要 等 待 的 是 什么 ， 并 且 可 以 确保 你 希望 交互 的 页 面部 分 已 经 被 加 载 。 


既然 我 们 已 经 获得 了 Web 驱动 ， 并 且 成 功 登录 网 站 ， 那 么 此 时 我 们 希望 
可 以 与 表单 进行 交互 ， 修 改 人 口 数量 。 





uj 





def add population (driver): 
driver.get(COUNTRY OR DISTRICT URL) 
population - driver.find element by id('places population') 


new population = int(population.get attribute('value')) + 1 
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population.clear() 

population.send keys (new population) 

driver.find element by xpath('//input[Gtype-"submit"]').click() 
pg loaded - WebDriverWait(driver, 10).until( 





EC.presence of element located((By.ID, 





"places population  row"))) 
test population - int(driver.find element by css selector( 
'iplaces population row .w2p fw').text.replace(',', '')) 
assert test population -- new population 


这 里 有 关 Selenium 使 用 的 唯一 新 功能 是 clear 方法 , 它 用 于 清空 表单 的 输 
入 值 (而 不 是 在 输入 域 结尾 处 添加 )。 我 们 还 使 用 了 元 素 的 get _ attribute 方 
法 ， 从 页 面 的 HTML 元 素 中 获得 指定 的 属性 。 因 为 我 们 正在 处 理 的 是 HTML 
的 input 元 素 ， 因 此 我 们 需要 得 到 value 属性 ， 而 不 是 检查 text 属性 。 

现在 我 们 已 经 实现 了 使 用 Selenium 将 人 口 数量 加 1 的 所 有 方法 ， 下 面 我 
们 可 以 运行 该 脚本 ， 类 似 如 下 所 示 。 


















































F 



































>>> driver = get driver() 
>>> login (driver) 
>>> add population (driver) 
>>> driver.quit() 


由 于 我 们 的 assert 语句 通过 了 ， 所 以 我 们 知道 使 用 这 个 简单 脚本 更 新 
人 口 数量 的 操作 已 经 成 功 了 。 

使 用 Selenium 与 表单 交互 还 有 很 多 方式 ， 我 鼓励 你 通过 阅读 文档 以 更 多 
地 了 解 。Selenium 对 那些 调试 有 问题 的 网 站 尤其 有 帮助 ， 因 为 我 们 拥有 使 用 
它 的 save screenshot 方法 碍 看 已 加 载 浏览 器 截图 的 能 力 。 


6.3.1 网 络 抓 取 时 的 “人 类 化 ”方法 


一 些 网 站 通过 特定 行为 检测 网 络 爬 虫 。 在 第 5 章 中 , 我 们 介绍 了 如 何 通过 
避免 点 击 隐藏 链 接 的 方式 避免 进入 蜜 缸 。 下 面 再 给 出 一 些 提示 ， 以 使 在 线 抓 
取 内 容 时 的 表现 更 像 人 类 。 

e 利用 请 求 头 : 我 们 介绍 的 大 部 分 抓 取 库 都 可 以 改变 请 求 头 ， 允 许 你 修 
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改 类 似 User-Agent, Referrer, Host 以 及 Connection 等 内 
容 。 此 外 ， 当 使 用 类 似 Selenium. 这 样 基 于 浏览 器 的 抓 取 器 时 ， 你 的 
候 虫 看 起 来 更 像 是 使 用 正常 请 求 头 的 普通 浏览 器 。 你 可 以 通过 打开 浏 
览 器 工具 ， 在 Network 选项 卡 中 查看 最 近 的 请 求 ,来 了 解 浏 览 器 正在 
使 用 的 请 求 头 是 什么 。 这 可 能 会 让 你 更 好 地 了 解 该 站 点 接受 的 请 求 头 
是 什么 。 

e 添加 延 时 : 一 些 怜 虫 检 测 技术 使 用 时 间 确 定 表单 填写 速度 是 否 过 于 迅 
速 , 或 是 页 面 加 载 后 的 链接 点 击 速度 是 否 过 快 ,为 了 表现 得 更 像 人 类 ， 
可 以 在 与 表单 交互 时 添加 合适 的 延 时 ， 或 是 使 用 sleep 在 请 求 之 间 
添加 延 时 。 这 同样 也 是 礼貌 的 抓 取 网 站 的 方式 ， 可 以 避免 网 站 过 载 。 

e 使 用 会 话 和 cookie: 正如 我 们 本 章 所 介绍 的 , 使 用 会 话 和 cookie 可 以 
帮助 你 的 仆 虫 更 容易 地 定位 网 站 , 并 且 可 以 让 你 表现 得 更 像 是 普通 浏 
览 器 。 通 过 在 本 地 保存 会 话 和 cookie， 你 可 以 选择 暂 离 时 的 会 话 ， 使 
用 已 保存 的 数据 恢复 抓 取 。 

































































6.4 ”本 章 小 结 





在 抓 取 网 页 时 ， 和 表单 进行 交互 是 一 个 非常 重要 的 技能 。 本 章 介 绍 了 两 种 
交互 方法 : 第 一 种 是 分 析 表 单 ， 手 工 生成 期 望 的 PosT 请求， 并 利用 浏览 
会 话 和 cookie 保持 登录 ; 第 二 种 则 是 使 用 Selenium 重新 实现 这 些 交 互 操作 。 
我 们 还 介绍 了 一 些 可 以 让 你 的 朴 虫 更 加 “人 类 化 ”的 提示 。 

下 一 章 , 我 们 将 会 继续 扩展 表单 相关 的 技能 , 学 习 如 何 提交 需要 发 送 验证 
码 图 像 答案 的 表单 。 
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第 7 章 
验证 码 处 理 


验证 码 ( CAPTCHA ) 的 全 称 为 全 自动 区 分 计算 机 和 人 类 的 公开 图 灵 测 试 
( Completely Automated Public Turing test to tell Computersand Humans 
Apart )。 从 其 全 称 可 以 看 出 ， 验 证 码 用 于 测试 用 户 是 否 为 真实 人 类 。 一 个 典 
型 的 验证 码 由 扭曲 的 文本 组 成 ， 此 时 计算 机 程序 难以 解析 ， 但 人 类 仍然 可 以 
《和 希望 如 此 ) 阅读 。 

许多 网 站 使 用 验证 码 来 防御 与 其 网 站 交互 的 机 器 人 程序 。 比 如 许多 银行 网 
站 强制 每 次 登录 时 都 需要 输入 验证 码 ， 这 就 令 人 十 分 痛苦 。 本 章 将 介绍 如 何 
自动 化 处 理 验证 码 问 题 ， 首 先 使 用 光学 字符 识别 ( Optical Character 
Recognition, OCR )， 然 后 使 用 一 个 验证 码 处 理 API。 

在 本 章 中 ， 我 们 将 会 介绍 如 下 主题 。 

e 验证 码 处 理 ; 

e 使 用 验证 码 处 理 服务 ; 

e 机 器 学 习 和 验证 码 ; 


e 报告 错误 。 







































































































































































异步 社区 会 员 sergeant(15779577768) 专 享 尊重 版 权 











7A 注册 账号 


7.1 注册 账号 











在 第 NA 我 们 使 用 手工 创建 的 账号 登录 网 站 , 而 忽略 了 创建 
账号 这 一 部 分 ， 这 是 因为 注册 表单 需要 输入 验证 码 ， 如 图 7.1 所 示 。 








Register 
First name 

Last name 

E-mail 

Password 


Confirm Password. 


Type the text 





Sign Up 




















& 7.1 








请 注意 , 每 次 加 载 表 单 时 都 会 显示 不 同 的 验证 码 图 像 。 为 了 了 解 表 单 需 要 
哪些 参数 ， 我 们 可 以 复 用 上 一 章 编写 的 parse_form () 函数 。 





>>> import requests 

>>> REGISTER URL = 'http://example.python-scraping.com/user/register' 
>>> session = requests.Session() 

>>> html = session.get(REGISTER URL) 

>>> form = parse form(html.content) 
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>>> form 
(' formkey': 'led4e4c4-fbc6-4d82-a0d3-771d289£8661', 
' formname': 'register', 
' next': '/', 
'email': '', 
'first name': 
'last name': '', 
'password': '', 
'password two': None, 
'recaptcha response field': None] 


前 面 的 代码 中 , 除 recaptcha response _ field 之 外 的 其 他 域 都 很 容 
易 处 理 ， 在 本 例 中 这 个 域 要 求 我 们 从 初始 页 面 显示 的 图 像 中 抽取 出 strange 
字符 串 。 


7.1.1 加 载 验证 码 图 像 


在 分 析 验 证 码 图 像 之 前 , 首先 需要 从 表单 中 获取 该 图 像 。 通过 浏览 器 工具 
可 以 看 到 ， 图 像 数 据 是 租 入 在 网 页 中 的 ， 而 不 是 从 其 他 URL 加 载 过 来 的 ， 如 
7.2 所 示 。 





Confirm Password: REZI 





Type the text: 


Sign Up 





Elements Console Sources Network Performance Memory Application Security Audits 


aJ] 
EN 





f «td class-"w2p f1"5..«/td 
Vxtd class-"w2p fw"» 
Y «div id-"recaptcha" 
«img src-"data:image/png;base64,iVBOR..USRbPiBCmQF 
AAAAAEIFTkSuQOmCC 





bo 
Į 


256 x 96 pixels 











图 7.2 
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1/ 





为 了 在 Python 中 处 理 该 图 像 ， 我 们 将 会 用 到 Pillow 包 ， 可 以 使 用 如 下 
命令 通过 pip 安装 该 包 。 





pip install Pillow 





ZUR Pillow 的 其 他 方法 可 以 参考 http://pillow.readthedocs.io/ 
en/latest/installation.html. 

Pillow 提供 了 一 个 便捷 的 Image 类 ， 其 中 包含 了 很 多 用 于 处 理 验证 码 
图 像 的 高 级 方法 。 下 面 的 函数 使 用 注册 页 的 HTML 作为 输入 参数 ， 返 回 包 含 
验证 码 图 像 的 Image 对 象 。 


















































from io import BytesIO 

from lxml.html import fromstring 
from PIL import Image 

import base64 


def get captcha img (html): 





tree - fromstring (html) 
img data = tree.cssselect('divisrecaptcha img')[0].get('src') 
img data = img data.partition(',"')[-1] 


binary img data - base64.b64decode(img data) 
img = Image.open(BytesIO(binary img data)) 





return img 


开始 几 行 使 用 1xml 从 表单 中 获取 图 像 数 据 。 图像 数据 的 前 级 定义 了 数据 
类 型 。 在 本 例 中 ， 这 是 一 张 进行 了 Base64 编码 的 PNG 图 像 ， 这 种 格式 会 使 
用 ASCI 编码 表示 二 进 制 数 据 。 我 们 可 以 通过 在 第 一 个 逗号 处 分 割 的 方法 移 
除 该 前 级 。 然 后 ， 使 用 Base64 解码 图 像 数 据 ， 回 到 最 初 的 二 进 制 格式 。 要 想 
加 载 图 像 ，PIL 还 需要 一 个 类 似 文件 的 接口 ， 所 以 在 传 给 Image 类 之 前 ， 我 
们 又 使 用 了 BytesIo 对 这 个 二 进 制 数据 进行 了 封装 。 


在 得 到 这 个 格式 更 加 合适 的 验证 码 图 像 后 ， 我 们 就 可 以 尝试 从 中 抽取 文 
本 了 。 
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Pillow 与 PIL 的 对 比 

Pillow 是 知名 的 Python 图 像 处 理 库 (Python Image Library, PIL ) 的 分 支 版 本 ， 
&p 不 过 PIL 4A 2009 年 开始 就 没有 再 更 新 过 . Pillow 使 用 了 和 原始 PIL 包 相 同 的 接 

口 , 并 且 拥 有 完善 的 文档 , 其 文档 地 址 为 http://pillow.readthedocs .ord。 

Pillow X4 Python3( PIL 不 支持 ), 因 此 我 们 将 在 本 书 中 聚焦 于 使 用 Pillow。 





7.2 ”光学 字符 识别 


光学 字符 识别 ( Optical Character Recognition, OCR ) 用 于 从 图 像 中 抽 
取 文 本 。 本 节 中 ,我 们 将 使 用 开源 的 Tesseract OCR 引擎 ， 该 引擎 最 初 由 惠普 公司 
开发 ,目前 由 Google 主导 。Tesseract 的 安装 说 明 可 以 从 https://github.com/ 
tesseract-ocr/tesseract/wiki/ 获 取 。 然 后 ， 可 以 使 用 pip 安装 其 
Python 封装 版 本 pytesseract。 




















pip install pytesseract 

















如 果 直 接 把 验证 码 原 始 图 像 传 给 pytesseract, 解析 结果 一 般 都 会 很 糟糕 。 








>>> import pytesseract 
>>> img = get captcha img (html.content) 
>>> pytesseract.image to string(img) 





上 面 的 代码 执行 后 ， 会 返回 一 个 空 字符 串 ”， 也 就 是 说 Tesseract 在 抽取 输 
入 图 像 中 的 字符 时 失败 了 。 这 是 因为 Tesseract 的 设计 初衷 是 为 了 抽取 更 加 上 典 
型 的 文本 ， 比 如 背景 统一 的 书页 。 如 果 我 们 想 要 更 加 有 效 地 使 用 Tesseract, 
需要 先 修改 验证 码 图 像 ， 去 除 其 中 的 背景 噪音 ， 只 保留 文本 部 分 。 

为 了 更 好 地 理解 我 们 将 要 处 理 的 验证 码 系统 , 图 7.3 中 又 给 出 了 几 个 示例 
验证 人 码 。 

























































































CD 返回 值 也 可 能 是 一 个 错误 的 解析 结果 。 一 一 译 者 注 











0 





异步 社区 会 员 sergeant(15779577768) zz 尊重 版 权 





72 光学 字符 识别 





从 图 7.3 中 的 例子 可 以 看 出 ， 验 证 码 文本 一 般 都 是 黑色 的 ， 背 景 则 会 更 加 
明亮 ， 所 以 我 们 可 以 通过 检查 像素 是 否 为 黑色 将 文本 分 离 出 来 ， 该 处 理 过 程 
又 被 称 为 阅 值 化 。 通 过 Pillow 可 以 很 容易 地 实现 该 处 理 过 程 。 








>>> img.save('captcha original.png') 

>>> gray = img.convert('L') 

>>> gray.save('captcha gray.png') 

>>> bw = gray.point(lambda x: 0 if x < 1 else 255, '1") 
>>> bw.save('captcha thresholded.png') 


首先 ， 我 们 使 用 convert 方法 把 图 像 转 为 灰 度 图 。 然 后 ， 使 用 point 
命令 ,通过 lambda 函数 映射 图 像 ,此 时 会 遍历 图 像 中 的 每 个 像素 ,在 lambda 
函数 中 ， 只 有 浆 值 小 于 1 的 像素 才 会 保留 ， 也 就 是 说 只 有 全 黑 的 像素 才 会 保 
留 下 来 。 这 段 代码 片段 保存 了 3 张 图 像 ， 分 别 是 原始 验证 码 图 像 、 转 换 后 的 
AK BE Fs] EA Je pa [EH RS EUG S] LS o 

最 终 图 像 中 的 文本 更 加 清晰 ， 此 时 我 们 就 可 以 将 其 传 给 Tesseract 进行 处 
理 了 。 


>>> pytesseract.image to string (bw) 
'strange' 
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成 功 了 ! 验证 码 中 的 文本 已 经 被 成 功 抽取 出 来 了 。 在 我 测试 的 100 张 图 片 
中 ， 该 方法 正确 解析 了 其 中 的 82 张 验证 码 图 像 。 

由 于 示例 文本 总 是 小 写 的 ASCII 字符 ， 因 此 我 们 可 以 将 结果 限定 在 这 些 
字符 中 ， 从 而 进一步 提高 性 能 。 












































>>> import string 

>>> word = pytesseract.image to string (bw) 

>>> ascii word = ''.join(c for c in word.lower() if c in 
string.ascii lowercase) 


在 对 相同 的 100 张 图 片 的 测试 中 ， 其 识别 率 提高 到 了 8896. 
下 面 是 目前 注册 脚本 的 完整 代码 。 





import requests 

import string 

import pytesseract 

from lxml.html import fromstring 

from chp6.login import parse form 

from chp7.image processing import get captcha img, img to bw 














REGISTER URL = 'http://example.python-scraping.com/user/register' 
def register(first name, last name, email, password): 





Session = requests.Session() 
html = session.get (REGISTER URL) 
form = parse form(html.content) 




















form['first name'] = first name 

form['last name'] = last name 

form['email'] = email 

form['password'] = form['password two'] = password 
img = get captcha img (html.content) 

captcha = ocr(img) 

form['recaptcha response field'] - captcha 

resp = session.post(html.url, form) 

success - '/user/register' not in resp.url 





if not success: 
form errors = fromstring(resp.content).cssselect('div.error') 
print('Form Errors:') 
print('n'.join( 
[F dis )'.format(f.get('id'), f.text) for f in 
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form errors))) 


return success 


def ocr(img): 
bw = img to bw(img) 
captcha = pytesseract.image to string (bw) 
cleaned = ''.join(c for c in captcha.lower() if c in 
string.ascii lowercase) 
if len(cleaned) != len(captcha): 
print('removed bad characters: [()'.format(set(captcha) - 





set(cleaned))) 


return cleaned 


register () 函数 下 载 注册 页 面 , 抓 取 其 中 的 表单 ,并 在 表单 中 设置 新 账 
号 的 名 称 、 邮 箱 地 址 和 密码 。 然 后 抽取 验证 码 图 像 ， 传 给 OCR 函数 ， 并 将 
OCR 函数 产生 的 结果 添加 到 表单 中 。 接 下 来 提交 表单 数据 ， 检 查 响应 URL, 
外 认 注 册 是 否 成 功 。 

如 果 注 册 失 败 ( 没 有 正确 重 定 向 到 主页 )， 将 会 打印 出 表单 错误 信息 ， 比 
如 我 们 可 能 需要 使 用 更 长 的 密码 、 不 同 的 邮箱 或 验证 码 输入 错误 。 我 们 还 打 
印 了 移 除 的 字符 ， 用 于 帮助 调试 ， 使 我 们 的 验证 码 解析 器 更 好 。 这 些 日 志 可 
能 有 助 于 我 们 识别 常见 的 OCR 错误 ， 比 如 误 将 1 认为 1 或 类 似 的 错误 ， 这 就 
需要 在 相似 的 字符 间 进 行 更 完美 的 区 分 。 

现在 ， 只 需要 使 用 新 账号 信息 调用 register () 函数 ， 就 可 以 注册 账号 了 。 


























zu 


















































>>> register(first name, last name, email, password) 
True 


7.2.1 进一步 改善 

要 想 进一步 改善 验证 码 OCR 的 性 能 ,下 面 还 有 一 些 可 能 会 使 用 到 的 方法 : 
e ”实验 不 同 的 闵 值 ; 

e ”腐蚀 闵 值 文 本 ， 突 出 字符 形状 ; 


e 调整 图 像 大 小 (有 时 增 大 尺寸 会 起 到 作用 ); 














J3 
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e 根据 验证 码 字体 训练 OCR LH: 

@ 限制 结果 为 字典 单词 。 

如 果 你 对 改善 性 能 的 实验 感 兴趣 ， 可 以 使 用 本 书 源码 文件 中 的 示例 数据 ， 
它 位 于 data/captcha samples 文件 夹 中 。 此 外 ， 还 有 一 个 脚本 用 于 测试 
其 准确 度 ， 它 位 于 本 书 源码 文件 的 chp7 文件 夹 中 ， 其 名 为 test samples。 
不 过 ， 对 于 我 们 注册 账号 这 一 目的 ， 目 前 88% 的 准确 率 已 经 足够 了 ， 这 是 因 
为 即使 是 真实 用 户 也 会 在 输入 验证 码 文本 时 出 现 错误 。 实 际 上 ， 即 使 10% 的 
准确 率 也 是 足够 的 ， 因 为 脚本 可 以 运行 多 次 直至 成 功 ， 不 过 这 样 做 对 服务 器 
不 够 友好 ， 甚 至 可 能 会 导致 IP 被 封禁 。 
















































































7.3 处理 复杂 验证 码 














前 面 用 于 测试 的 验证 码 系统 相对 来 说 比较 容易 处 理 , 因为 文本 使 用 的 黑色 
字体 与 背景 很 容易 区 分 ， 而 且 文本 是 水 平 的 ， 无 须 旋 转 就 能 被 Tesseract 准确 
解析 。 一 般 情 况 下 ， 网 站 使 用 的 都 是 类 似 这 种 比较 简单 的 通用 验证 码 系统 ， 
此 时 可 以 使 用 OCR 方法。 但是， 如 果 网 站 使 用 的 是 更 加 复杂 的 系统 ， 比 如 
Google 的 reCAPTCHA, OCR 方法 则 需要 花费 更 多 努力 ， 甚 至 可 能 无 法 使 用 。 

在 这 些 例子 中 , 因为 文本 被 置 于 不 同 的 角度 ,并且 拥有 不 同 的 字体 和 颜色 ， 
所 以 要 使 OCR 方法 准确 的 话 ， 需 要 更 多 工作 来 清理 以 及 预 处 理 这 些 图 像 。 这 
些 高 级 验证 码 ， 甚 至 有 时 连 人 类 都 很 难 解析 ， 对 于 一 个 简单 的 脚本 来 说 就 更 
加 困难 了 。 


























































































































7.4 ”使 用 验证 码 处 理 服 务 























为 了 处 理 这些 更 加 复杂 的 图 像 ， 我 们 将 使 用 验证 码 处 理 服 务 "。 验 证 码 处 




















O 一 般 也 称 为 打 码 平台 。 一 一 译 者 注 
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7.4 使 用 验证 码 处 理 服务 








理 服 务 有 很 多 ， 比 如 2Paptcha 网 站 和 DeCaptcher 网 站 ， 其 服务 价位 为 1000 








个 验证 码 图 像 0.5 美元 一 2 美元 不 等 。 当 把 验证 码 图 像 传 给 验证 码 解 机 API 


























时 ， 会 有 人 进行 人 工 查看 ， 并 在 HTTP 响应 中 给 出 解析 后 的 文本 ， 一 般 来 说 
该 过 程 在 30 秒 以 内 。 


在 本 节 的 示例 





便宜 


























中 ， 我 们 将 使 用 9kw .eu 的 服务 。 虽 然 该 服务 没有 提供 最 








的 验证 码 处 理 价格 ， 也 没有 最 好 的 API 设计 ， 但 是 使 用 该 API 可 能 不 需 


























这 些 积 分 处 理 我 们 的 验证 码 。 


7.4. 
要 想 开 始 使 用 9kw， 首 先 需要 创建 一 个 账号 ， 注 册 网 址 为 https : / /www. 








1 9kw AT] 





Okw.eu/register.html. 
然后 ， 按 照 账号 确认 说 明 进 行 操作 。 登 录 后 ， 我 们 被 定位 到 nttps:// 


www.9kw.eu/usercaptcha.h 


分 。 












































要 人 花 钱 。 这 是 因为 9kw .eu 允许 用 户 人 工 处 理 验 证 码 来 获取 积分 ， 然 后 花费 























tml. 








在 本 页 中 ， 需 要 处 理 其 他 用 户 的 验证 码 来 获取 后 面 使 用 API 时 所 需 的 积 
在 处 理 了 几 个 验证 码 之 后 ， 会 被 定位 到 https://www.9kw.eu/ 


index.cgi?action-userapinew&source-api 来 创建 API key. 


























9kw 验证 码 API 


9kw 的 API 文档 地 址 为 nttps://www.9kw.eu/api.html#apisubmit- 
我 们 用 于 提交 验证 码 和 检查 结果 的 主要 部 分 总 结 如 下 。 


如 果 想 要 提交 要 解析 的 验证 码 ， 可 以 使 用 该 API 方法 及 参数 。 


tab. 















































URL: https://www.9kw.eu/index.cgi (POST) 


apikey: 你 的 API key 


action: 必须 设 为 “usercaptchaupload” 
file-upload-01: 需要 处 理 的 图 像 (Xf. url 或 字符 串 ) 











base64: 如 果 输 入 是 Base64 编码 ， 








则 设 为 “1? 


maxtimeout: 等 待 处 理 的 最 长 时 间 (必须 为 60 ~ 3999 秒 ) 


—— 148 ]—————————————————— 
异步 社区 会 员 sergeant(15779577768) EF 尊重 版 权 








第 7 章 验证 码 处 理 


selfsolve: 如 果 自 己 处 理 该 验证 码 ， 则 设 为 “1? 
json: 如 果 要 以 JSON 格式 接收 响应 ， 则 设 为 “1? 
API 返回 值 : 该 验证 码 的 ID 


如 果 想 要 请 求 已 提交 验证 码 的 结果 ， 需 要 使 用 不 同 的 API 方法 和 参数 。 























URL: https://www.9kw.eu/index.cgi (GET) 
apikey: 你 的 API key 

action: 必须 设 为 “usercaptchacorrectdata” 

id: 要 检查 的 验证 码 ID 

info: 若 设 为 1， 没 有 得 到 结果 时 返回 “NO DATA" (默认 返回 空 
json: 如 果 要 以 JSON 格式 接收 响应 ， 则 设 为 “1” 

API 返回 值 : 要 处 理 的 验证 码 文本 或 错误 码 


此 外 ，API 还 有 一 些 错误 代码 。 











ü 
一 








0001 API key 不 存在 

0002 没有 找到 API key 
0003 没有 找到 激活 的 API key 
0031 账号 被 系统 禁用 24 小 时 
0032 账号 没有 足够 的 权限 
0033 需要 升级 插件 


下 面 是 发 送 验证 码 图 像 到 该 API 的 初始 实现 代码 。 














^ 





import requests 
API URL = 'https://www.9kw.eu/index.cgi' 


def send captcha(api key, img data): 
data = { 
'action': 'usercaptchaupload', 
'apikey': api key, 
'file-upload-01': img data, 
'base64': '1', 
'selfsolve': '1', 





'maxtimeout': '60', 
"jsonm'i Uit, 
} 
response = requests.post(API URL, data) 
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return response.content 
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这 个 结构 应 该 看 起 来 很 熟悉 ,首先 我 们 创建 了 一 个 所 需 参 数 的 字典 , 对 其 








进行 编码 , 然后 将 该 数据 作为 请 求 体 提交 ,需要 注意 的 是 , 这 里 将 selfsolve 
选项 设 为 '1', 这 种 设置 下 , 如 果 我 们 正在 使 用 9kw 的 Web 界面 处 理 验证 码 ， 
那么 验证 码 图 像 就 会 传 给 我 们 自己 处 理 ， 从 而 可 以 节约 我 们 的 积分 。 如 果 此 
时 我 们 没有 处 于 登录 状态 ， 验 证 码 则 会 传 给 其 他 用 户 。 


















































下 面 是 获取 验证 码 图 像 处 理 结果 的 代码 。 











def get captcha text(api key, captcha id): 
data = { 
'action': 'usercaptchacorrectdata', 
'id': captcha id, 
'apikey': api key, 
"son's. "M 
} 
response = requests.get(API URL, data) 








return response,.content 
































9kw 的 API 的 一 个 缺点 是 , 错误 信息 是 在 与 结果 相同 的 JSON 字段 中 传输 




















的 ， 这 样 就 会 使 它们 的 区 分 更 加 复杂 。 例 如 ， 此 时 没有 用 户 处 至 
则 会 返回 ERROR. NO USER 字符 串 。 不 过 幸好 我 们 提交 的 验 放 





会 包含 这 类 文本 。 





验证 码 E 像 ， 




















E 码 图 像 永远 不 

















另 一 个 困难 是 ， 只 有 在 其 他 用 户 有 时 间 人 工 处 到 








ET 








ER E 











f. get. 





captcha text () 函数 才能 返回 错误 信息 ， 正 如 之 前 提 到 的 ， 通 常 要 在 30 


秒 之 后 。 











为 了 使 实现 更 加 友好 , 我 们 将 会 增加 一 个 封装 函数 , 用 于 提交 验证 码 图 像 
以 及 等 待 结果 人 返回。 下面 的 扩展 版 本 代码 把 这 些 功 能 封装 到 一 个 可 复 用 类 当 











中 ， 忆 外 还 增加 了 检查 错误 信息 的 功能 。 


import base64 
import re 
import time 
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import requests 
from io import BytesIO 


class CaptchaAPI: 
def | init (self, api key, timeout-120): 


self.api key - api key 





self.timeout = timeout 





self.url = 'https://www.9kw.eu/index.cgi' 


def solve(self, img): 
"""Submit CAPTCHA and return result when ready""" 
img buffer = BytesIO() 
img.save(img buffer, format-"PNG") 
img data = img buffer.getvalue|() 
captcha id - self.send(img data) 
start time - time.time() 





while time.time() < start time + self.timeout: 
try 
resp - self.get(captcha id) 
except CaptchaError: 
pass 4$ CAPTCHA still not ready 
else: 
if resp.get('answer') !- 'NO DATA': 
if resp.get('answer') == 'ERROR NO USER': 
raise CaptchaError( 
'Error: no user available to solve CAPTCHA!) 

















else: 
print('CAPTCHA solved!') 
return captcha id, resp.get('answer') 
print('Waiting for CAPTCHA ...') 
time.sleep(1) 











raise CaptchaError('Error: API timeout') 





def send(self, img data): 
"""Send CAPTCHA for solving """ 
print('Submitting CAPTCHA') 
data = 
'action': 'usercaptchaupload', 





'apikey': self.api key, 
'file-upload-01': base64.b64encode(img data), 





'base64': '1', 

'selfsolve': '1', 

PSOne -rR 

'maxtimeout': str(self.timeout) 
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) 


result - requests 
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.post (self.url, data) 





self.check (result 


.text) 


return result.json() 


def get(self, captcha id): 


"""Get result of 





solved CAPTCHA """ 


data = { 
'action': 'usercaptchacorrectdata', 
'id': captcha id, 
'apikey': self.api key, 
Uóunppfot's "lt, 
"Ujsom"'s "Tt, 
) 
result - requests.get(self.url, data) 





self.check (result 


.text) 





return result.json() 





def check(self, resul 
"""Check result o 

if re.match('00dd 
raise Captcha 


E): 
f API and raise error if error code""" 


wt', result): 


Error('API error: ' + result) 


def report(self, captcha id, correct): 


""" Report back w 
data = { 





hether captcha was correct or not""" 


'action': 'usercaptchacorrectback', 


'id': captcha id, 


'apikey': sel 


f.api key, 


'correct': (lambda c: 1 if c else 2) (correct), 


UISOIte tT", 


) 





resp = requests.g 
return resp.json( 














class CaptchaError (Except 
pass 


t(self.url, data) 
) 


ion): 


CaptchaAPI 类 的 源码 位 于 本 书 源码 文件 的 chp7 文件 夹 中 ， 其 名 为 
captcha_api.py， 这 个 代码 文件 会 在 9kw.eu 修改 其 API 时 保持 更 新 。 这 个 类 
使 用 你 的 API key 以 及 超时 时 间 进 行 实例 化 ,其 中 超时 时 间 默 认为 120 秒 ,solve () 
方法 把 验证 码 图 像 提 交 给 API， 并 持续 请 求 ， 直 到 验证 码 图 像 处 理 完成 或 者 
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到 达 超 时 时 间 。 


目前 ， 检 查 API 响应 中 的 错误 信息 时 ，check 0 方法 会 检查 初始 字符 ， 
确认 其 是 否 遵循 错误 信息 前 包含 4 位 数字 错误 码 的 格式 。 要 想 该 API 在 使 用 
时 更 加 健壮 ， 可 以 对 该 方法 进行 扩展 ， 使 其 包含 全 部 34 种 错误 类 型 。 

下 面 是 使 用 CaptchaAPI 类 处 理 验 证 码 图 像 时 的 执行 过 程 示例 。 






























































>>> API KEY = ... 
>>> captcha = CaptchaAPI (API KEY) 
>>> img = Image.open('captcha.png') 


>>> captcha id, text = captcha.solve (img) 
Submitting CAPTCHA 
Waiting for CAPTCHA ... 
Waiting for CAPTCHA ... 
Waiting for CAPTCHA ... 
Waiting for CAPTCHA ... 
Waiting for CAPTCHA ... 
Waiting for CAPTCHA ... 
Waiting for CAPTCHA ... 
Waiting for CAPTCHA ... 
Waiting for CAPTCHA ... 
Waiting for CAPTCHA ... 
Waiting for CAPTCHA ... 
CAPTCHA solved! 

>>> text 

juxhvgy 


这 是 本 章 前 面 给 出 的 第 一 个 复杂 验证 码 图像 的 正确 识别 结果 。 如 果 再 次 提 
交 相 同 的 验证 码 图 像 ， 则 会 立即 返回 缓存 结果 ， 并 且 不 会 再 次 消耗 积分 。 















































>>> captcha id, text = captcha.solve (img data) 
Submitting CAPTCHA 

>>> text 

juxhvgy 


7.4.2 ”报告 错误 
大 多 数 验证 码 处 理 服务 ， 比 如 9kweu， 都 提供 了 对 已 处 理 验证 码 报告 问 
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题 的 能 力 ， 可 以 对 文本 是 否 在 网 站 中 正常 工作 给 予 反 馈 。 你 可 能 已 经 注意 到 
Y, 在 我 们 的 CaptchaAPI 类 中 ， 有 一 个 report 方法 ， 可 以 让 我 们 通过 传 
输 验 证 码 ID 以 及 布尔 值 ， 来 判断 验证 码 是 否 正 确 。 之 后 ， 它 将 数据 发 送 到 仅 
用 于 报告 验证 码 正确 性 的 终端 上 。 对 于 我 们 的 用 例 来 说 ， 可 以 通过 判断 注册 
表单 成 功 还 是 失败 来 确定 验证 码 是 否 正 确 。 

根据 你 使 用 的 API 不同， 可 能 会 在 报告 错误 的 验证 码 后 获得 返还 的 积分 ， 
这 对 于 付费 服务 来 说 是 非常 有 用 的 。 当 然 ， 该 功能 可 能 会 被 滥用 ， 因 此 每 天 
报告 错误 的 数量 通常 都 会 有 一 个 上 限 。 除 了 返还 积分 外 ， 无 论 是 报告 正确 还 
是 错误 的 验证 码 处 理 结果 ， 都 会 对 服务 改善 有 所 帮助 ， 可 以 让 你 不 会 为 无 效 
的 处 理 结果 花费 额外 的 费用 。 




































































































































































7.4.3 与 注册 功能 集成 

目前 我 们 已 经 拥有 了 一 个 可 以 运行 的 验证 码 API 解决 方案 ， 下 面 我 们 可 
以 将 其 与 前 面 的 表单 进行 集成 。 下 面 的 代码 对 register 函数 进行 了 修改 ， 
现在 我 们 使 用 了 captchaAPI 类 。 

















from configparser import ConfigParser 
import requests 


from lxml.html import fromstring 

from chp6.login import parse form 

from chp7.image processing import get captcha img 
from chp7.captcha api import CaptchaAPI 











REGISTER URL = 'http://example.python-scraping.com/user/register' 


def get api key(): 
config = ConfigParser() 
config.read('../config/api.cfg') 





return config.get('captcha api', 'key') 


def register(first name, last name, email, password): 





Session = requests.Session() 
html = session.get (REGISTER URL) 
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form = parse form(html.content) 


form['first name'] - first name 

form['last name'] = last name 

form['email'] = email 

form['password'] = form['password two'] = password 


api key - get api key() 

img = get captcha img (html.content) 
api = CaptchaAPI(api key) 

captcha id, captcha - api.solve(img) 





form['recaptcha response field'] - captcha 
resp = session.post(html.url, form) 





success - '/user/register' not in resp.url 
if success: 

api.report(captcha id, 1) 
else: 


form errors = fromstring(resp.content).cssselect('div.error') 





print('Form Errors:') 
print('n'.join( 
(* (): ()'.format(f.get('id'), f.text) for f in form errors))) 
if 'invalid' in [f.text for f in form errors]: 
api.report(captcha id, 0) 


return sucosss 


从 前 面 的 代码 中 可 以 看 出 , 我们 使 用 了 新 的 CaptchaAPI 类 , 确保 向 API 
报告 错误 和 成 功 。 我 们 还 使 用 了 ConfigParser， 这 样 我 们 的 API key 就 永 
远 不 会 保存 在 代码 库 当 中 了 ， 而 是 保存 在 配置 文件 中 。 如 果 想 要 查看 配置 文 
件 的 示例 ， 可 以 前 往 我 们 的 代码 库 〈 位 于 本 书 源码 文件 的 code 文件 夹 中 ， 
其 名 为 example config.cfg)。 你 还 可 以 将 API key 存储 在 环境 变量 或 是 
你 计算 机 或 服务 器 的 其 他 安全 存储 中 。 


现在 ， 我 们 可 以 尝试 运行 新 的 注册 函数 了 。 























>>> register(first name, last name, email, password) 
Submitting CAPTCHA 

Waiting for CAPTCHA ... 

Waiting for CAPTCHA ... 

Waiting for CAPTCHA ... 

Waiting for CAPTCHA ... 

Waiting for CAPTCHA ... 

Waiting for CAPTCHA ... 
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Waiting for CAPTCHA ... 
True 


运行 成 功 了 ! 我 们 从 表单 中 成 功 获取 到 了 验证 码 图 像 ， 并 提交 给 9kw 的 
API， 之 后 其 他 用 户 人 工 处 理 了 该 验证 码 ， 程 序 将 返回 结果 成 功 提 交 到 Web 
服务 器 端 ， 注 册 了 一 个 新 账号 。 



































7.5 验证 码 与 机 器 学 习 


随 着 深度 学 习 和 图 像 识 别 技术 的 进步 , 计算 机 在 正确 识别 图 像 中 的 文本 和 
对 象 方面 越 来 越 出 色 。 有 一 些 有 意思 的 论文 和 项 目 针 对 验证 码 运用 了 深度 学 
习 图 像 识 别 方法 。 一 个 基于 Python 的 项 目 Chttps://github.com/ 
arunpatala/captcha) 使 用 了 PyTorch 在 一 个 大 型 验证 码 数据 集 上 训练 处 
理 模型 。2012 年 6 H, Claudia Cruz. Fernando Uceda 以 及 Leobardo Reyes (一 
个 来 自 墨 西 哥 的 学 生 团队 ) 发 表 了 一 篇 论文 ， 可 以 对 reCAPTCHA 验证 码 的 图 
像 达到 82% 的 处 理 准 确 率 。 另 外 ， 还 有 很 多 其 他 的 研究 和 黑客 攻击 ， 尤 其 是 那 
些 经 常 包含 音频 组 件 的 验证 码 图 像 (包含 该 组 件 的 目的 是 用 于 无 障碍 访问 )。 

针对 你 遇 到 的 网 络 爬 虫 来 说 ， 不 太 可 能 需要 比 OCR 或 基于 API 的 验证 码 
服务 更 多 的 验证 码 处 理 功能 ， 不 过 如 果 你 对 尝试 训练 自己 的 模型 感 兴趣 的 话 ， 
首先 需要 找到 或 创建 正确 解码 的 大 型 验证 码 数 据 集 。 深 度 学 习 和 计算 机 视觉 都 
是 正在 快速 发 展 的 领域 , 很 有 可 能 在 本 书 出 版 后 , 会 有 更 多 的 研究 和 项 目 发 表 ! 
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本 章 给 出 了 处 理 验证 码 的 方法 : 首先 是 使 用 OCR， 然 后 是 使 用 外 部 API 
对 于 简单 的 验证 码 ， 或 者 需要 处 理 大 量 验证 码 时 ， 在 OCR 方法 上 花费 时 间 是 
很 值得 的 。 和 否则 ， 使 用 验证 码 处 理 API 会 更 加 经 济 有 效 。 

下 一 章 中 , 我 们 将 介绍 Scrapy， 这 是 一 个 流行 的 高 级 框架 ， 可 以 用 于 创建 
We dU NL. 
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Scrapy 是 一 个 流行 的 网 络 朴 虫 框架 ， 它 使 用 了 一 些 高 级 功能 以 简化 网 站 
抓 取 。 本 章 中 ， 我 们 将 学 习 使 用 Scrapy 抓 取 示例 网 站 ， 目 标 任务 与 第 2 章 相 
同 。 然 后 ， 我 们 还 会 介绍 Portia， 这 是 一 个 基于 Scrapy 的 应 用 ， 人 允许 用 户 通 
过 点 击 界面 抓 取 网 站 。 


在 本 章 中 ， 我 们 将 会 介绍 如 下 主 
€ Scrapy AT]; 

e (cm. 

对 比 不 同 的 爬虫 类 型 ; 

使 用 Scrapy HEITEN; 

使 用 Portia 编写 可 视 化 息 虫 ; 
使 用 Scrapely 实现 自动 化 抓 取 。 























8.1 ”安装 Scrapy 


我 们 可 以 使 用 pip 命令 安装 Scrapy， 如 下 所 示 。 


pip install scrapy 
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由 于 Scrapy 依赖 一 些 外 部 库 ， 因 此 如 果 在 安装 过 程 中 遇 到 困难 的 话 ， 可 
以 从 其 官方 网 站 上 获取 到 更 多 信息 ， 网 址 为 nttp://doc.scrapy.org/ 
en/latest/intro/install.html. 


如 果 Scrapy 安装 成 功 ， 就 可 以 在 终端 里 执行 scrapy MS T- 











$ scrapy 
Scrapy 1.3.3 - no active project 


Usage: 
scrapy <command> [options] [args] 


Available commands: 
bench Run quick benchmark test 


commands 
fetch Fetch a URL using the Scrapy downloader 


本 章 中 我 们 将 会 使 用 如 下 几 个 命令 
€ startproject: 创建 一 个 新 项 目 。 
€ genspider: 根据 模板 生成 一 个 新 爬虫 。 
€ crawl: ATER. 

€ shell: 启动 交互 式 抓 取 控 于 











S 


人 
HO o 


D 要 了 解 上 述 命令 或 其 他 命令 的 详细 信息 ， 可 以 参考 http://doc.scrapy. 


org/en/latest/topics/commands.html, 


8.2 ”局 动 项 目 


安装 好 Scrapy 以 后 ， 我 们 可 以 运行 startproject 命令 生成 第 一 个 
Scrapy 项 目的 默认 结构 。 
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有 具体 的 操作 步骤 为 : 打开 终端 进入 想 要 存储 Scrapy 项 目的 目录 ， 然 后 运 
ÍT scrapy startproject «project name>。 这 里 我 们 使 用 example 
作为 项 目 名 。 


$ scrapy startproject example 
$ cd example 


下 面 是 scrapy 命令 生成 的 文件 结构 。 





scrapy.cfg 

example/ 
- Cknldte py 
items.py 
middlewares.py 
pipelines.py 
settings.py 
spiders/ 

. init  .py 


其 中 , 在 本 章 〈 以 及 一 般 的 Scrapy 使 用 ) 中 比较 重要 的 几 个 文件 如 下 所 示 。 
€ :items .py: 该 文件 定义 了 待 抓 取 域 的 模型 。 
€ settings.py: 该 文件 定义 了 一 些 设置 ， 如 用 户 代 理 、 疏 取 延 时 等 。 
€ spiders/: 该 目录 存储 实际 的 爬虫 代码 。 
另外 ,，Scrapy 使 用 scrapy.cfg 设置 项 目 配置 , pipelines.py 处 理 


抓 取 的 域 , middlewares .py 控制 请 求 和 响应 中 间 件 ,不 过 在 本 例 中 无 须 人 
改 这 几 个 文件 。 


















































yE 














N 





8.2.1 定义 模型 
默认 情况 下 ，example/items .py 文件 包含 如 下 代码 。 





-*- coding: utf-8 -*- 





Define here the models for your scraped items 





See documentation in: 
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f http://doc.scrapy.org/en/latest/topics/items.html 


import scrapy 





class Exampleltem(scrapy.Item): 
# define the fields for your item here like: 
# name = scrapy.Field() 
pass 


Exampleltem 类 是 一 个 模板 , 需要 将 其 中 的 内 容 蔡 换 为 我 们 希望 从 示例 
国家 (或 地 区 ) 页 面 中 抽取 到 的 信息 。 对 于 目前 来 说 , 我 们 只 会 抓 取 国 家 (或 
HWX) 名 称 和 人 口 数 量 ， 而 不 是 抓 取 国家 或 地 区 〉 的 所 有 信息 。 下 面 是 修 
改 后 文 持 该 功能 的 模型 代码 。 























class CountryOrDistrictItem(scrapy.Item): 
name = scrapy.Field() 
population = scrapy.Field() 


定义 item 的 详细 文档 可 以 参考 http://doc.scrapy.org/en/latest/ 
topics/items.html, 


8.2.2 MEER 

ME, dEATTEEJTP ARAS PROEBS HUS T, Æ Scrapy 里 又 被 称 为 spider。 
通过 genspider MS, RARER, BUD RISBPEUEX wu ut 
成 初始 模板 。 








$ scrapy genspider country or district example .python-scraping.com --template- 
crawl 


我 们 使 用 了 内 置 的 crawl 模板 ， 以 利用 Scrapy FER] CrawlSpider. fH 
对 于 简单 的 抓 取 扑 虫 来 说 ，Scrapy 的 CrawlSpider 拥有 一 些 网 络 爬 取 时 可 
用 的 特殊 属性 和 方法 。 

运行 genspider 命令 之 后 ， 下 面 的 代码 将 会 在 example/spiders/ 
country or district.py 中 自动 生成 。 
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# -*- coding: utf-8 -*- 
import scrapy 





from scrapy.linkextractors import LinkExtractor 


from scrapy.spiders import CrawlSpider, Rule 


class CountryOrDistrictSpider (CrawlSpider): 
name = 'country or district' 
allowed domains - ['example.python-scraping.com'] 


start urls = ['http://example.python-scraping.com'] 





rules = ( 








Rule(LinkExtractor(allow-r'Items/'), callback-'parse item', 
follow-True), 


) 





def parse item(self, response): 
I 
#i['domain id'] = 


response.xpath('//input[Q@id="sid"]/@value') .extract() 





#i['name'] = response.xpath('//div[Gid-"name"]"').extract() 
fi['description'] = 
response.xpath('//div[Gid-"description"]').extract() 


return i 


最 开始 几 行 导入 了 后 面 会 用 到 的 Serapy 库 以 及 编码 定义 。 然 后 创建 了 一 
个 爬虫 类 ， 该 类 包括 如 下 类 属性 。 


€ name: 识别 爬虫 的 字符 串 。 
€ allowed domains: 可 以 仆 取 的 域名 列表 。 如 果 没 有 设置 该 属 
则 表示 可 以 候 取 任何 域名 。 
€ start urls: 疏 虫 起 始 URL 列表 。 
€ rules: 该 属性 为 一 个 通过 正则 表达 式 定义 的 Rule 对 象 元 组 ， 用 于 
告知 有 息 忠 需要 跟踪 哪些 链接 以 及 哪些 链接 包含 得 抓 取 的 有 用 内 容 。 
你 会 发 现 定 义 的 Rule 中 包含 一 个 callback 属性 ， 该 回调 被 设置 为 下 
定义 的 parse item。 该 方法 是 CrawlSpider 对 象 的 主要 数据 抽取 方法 ， 
并 且 该 方法 生成 的 Scrapy 代码 中 包含 从 页 面 中 抽取 内 容 的 示例 。 

















U 


性 ， 
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由 于 Serapy 是 一 个 高 级 框架 ， 因 此 即使 只 有 这 几 行 代码 ， 也 还 有 很 多 需 
要 了 解 的 知识 。 官 方 文档 中 包含 了 创建 肘 虫 相关 的 更 多 细节 ， 其 网 址 为 
http://doc.scrapy.org/en/latest/topics/spiders.html. 

1. 优化 设置 

在 运行 前 面 生 成 的 仆 虫 之 前 ， 需 要 更 新 Scrapy 的 设置 ， 避免 候 虫 被 封禁 。 
默认 情况 下 ，Scrapy 对 同一 域名 允许 最 多 16 个 并 发 下 载 ， 并 且 两 次 下 载 之 间 
没有 延 时 ， 这 样 就 会 比 真实 用 户 浏览 时 的 速度 快 很 多 。 该 行为 很 容易 被 服务 
器 检测 到 并 阻止 。 

在 第 1 章 中 提 到 ， 当 下载 速度 持续 高 于 每 秒 一 个 请 求 时 , 我 们 抓 取 的 示例 
网 站 会 暂时 封禁 讨 虫 ， 也 就 是 说 使 用 默认 配置 会 造成 我 们 的 爬虫 被 封禁 。 除 
非 你 在 本 地 运行 示例 网 站 ， 人 否则 我 建议 在 example/settings.py 文件 中 
添加 如 下 几 行 代码 ， 使 肘 虫 同时 只 能 对 每 个 域名 发 起 一 个 请 求 ， 并 且 每 两 次 
请 求 之 间 存 在 合理 的 5 秒 延 时 。 










































































CONCURRENT REQUESTS PER DOMAIN - 1 
DOWNLOAD DELAY - 5 


你 也 可 以 在 文档 中 搜索 到 这 些 设置 ， 使 用 上 面 的 值 进行 修改 并 取消 注释 。 
请 注意 ，Scrapy 在 两 次 请 求 之 间 的 延 时 并 不 是 精确 的 ， 这 是 因为 精确 的 延 时 
同样 会 造成 仆 忠 容易 被 检测 到 ， 然 后 被 封禁 。 而 Scrapy 实际 使 用 的 方法 是 在 
两 次 请 求 之 间 的 延 时 上 添加 随机 的 偏 移 量 。 
























































D 要 想 了 解 关 于 上 述 设置 和 其 他 可 用 设置 的 更 多 细节 ,可 以 参考 http://doc . 
Scrapy.org/en/latest/topics/settings.html, 
2. imm 
想 要 从 命令 行 运 行 仆 虫 ， 需 要 使 用 crawl MS, HEH ETemmpAm. 








$ scrapy crawl country or district -s LOG LEVEL-ERROR 
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$ 

脚本 运行 后 ， 完 全 没有 输出 。 你 会 注意 到 命令 中 有 一 个 -s LOG LEVEL- 
ERROR 标记 ， 这 是 一 个 Scrapy 设置 ， 等 同 于 在 settings.py 文件 中 定 》 
LOG LEVEL = 'ERROR'。 默 认 情 况 下 ，Scrapy 会 在 终端 上 输出 所 有 日 志 信 
息 ， 而 这 里 是 将 日 志 级 别提 升 至 只 显示 错误 信息 。 

为 了 真正 抓 取 页 面 上 的 一 些 内 容 ， 我 们 需要 在 候 虫 文件 中 添加 几 行 代码 。 
为 了 确保 我 们 可 以 启动 构建 并 且 抽 取 item, 我 们 必须 先 从 使 用 CountryItem 
开始 ， 并 更 新 息 取 规划。 下 面 是 更 新 后 的 候 虫 版 本 。 





















































from example.items import CountryOrDistrictItem 


Rule(LinkExtractor(allow-r'/index/'), follow-True), 











Rule (LinkExtractor(allow-r'/view/'), callback-'parse item') 





def parse item(): 
i = CountryOrDistrictItem () 











为 了 抽取 结构 化 数据 , 需要 使 用 我 们 创建 的 CountryOrDistrictItem 
类 。 在 新 添加 的 代码 中 ， 我 们 引入 该 类 ， 并 在 parse item 方法 中 实例 化 了 
一 个 对 象 i CÈ item). 

此 外 , 我 们 还 需要 添加 规则 ， 以 便 我 们 的 怜 虫 可 以 找到 数据 并 对 其 进行 抽 
取 。 默 认 规 则 为 搜索 url 模式 r'/Items', 人 ei 
我 们 可 以 根据 对 站 点 的 已 知 信息 ， 创 建 两 条 新 规则 来 蔡 代 默认 规则 。 第 一 条 
规则 和 候 取 索引 页 并 跟踪 其 中 的 链接 ， 而 第 二 条 规则 息 取 国家 ny 页 面 
并 将 下 载 响 应 传 给 callback 函数 用 于 抓 取 。 

下 面 让 我 们 把 日 志 级 别 设 为 DEBUG 以 显示 更 多 的 忠 取信 息 ， 来 看 一 下 这 
个 改进 后 的 爬虫 是 如 何 运行 的 。 





























$ scrapy crawl country or district -s LOG LEVEL-DEBUG 
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2017-03-24 11:52:42 [scrapy.core.engine] DEBUG: Crawled (200) «GET 

http://example.python-scraping.com/view/Belize-23» (referer: 

http://example.python-scraping.com/index/2) 

2017-03-24 11:52:49 [scrapy.core.engine] DEBUG: Crawled (200) «GET 

http://example.python-scraping.com/view/Belgium-22» (referer: 

http://example.python-scraping.com/index/2) 

2017-03-24 11:52:53 [scrapy.extensions.logstats] INFO: Crawled 40 pages (at 

10 pages/min), scraped 0 items (at 0 items/min) 

2017-03-24 11:52:56 [scrapy.core.engine] DEBUG: Crawled (200) «GET 

http://example.python-scraping.com/user/login? next-$2Findex$2F0» (referer: 

http://example.python-scraping.com/index/0) 

2017-03-24 11:53:03 [scrapy.core.engine] DEBUG: Crawled (200) «GET 

http://example.python-scraping.com/user/register? next-$2Findex$2F0» 
(referer: 

http://example.python-scraping.com/index/0) 























输出 的 日 志 信息 显示 ， 索 引 页 和 国家 或 地 区 ) KA VL IESU, 并且 
经 过 滤 了 重复 链接 。 我 们 还 可 以 看 到 ， 在 首次 局 动 爬 取 时 ， 我 们 已 安装 的 
中 间 件 以 及 其 他 重要 信息 的 输出 。 


不 过 ， 我 们 还 会 发 现 疏 虫 浪费 了 很 多 资源 来 疏 取 每 个 网 页 上 的 登录 和 注册 表 
单 链接 ， 因 为 它们 也 匹配 rules 里 的 正则 表达 式 。 前 面 命令 中 的 登录 URL 以 
_next=%2Findex%2F1 结尾 , 也 就 是 next-/index/1 经 过 URL 编码 后 的 结 
R, 定义 了 登录 后 重 定向 的 地 址 。 要 想 避 免 候 取 这 些 URL， 我 们 可 以 使 用 规则 的 
deny 参数 ， 该 参数 同样 需要 一 个 正则 表达 式 ， 用 于 匹配 每 个 不 想 息 取 的 URL. 


下 面 对 之 前 的 代码 进行 了 修改 ， 通 过 避免 URL 包含 /user/ 来 防止 仆 取 
用 户 登 录 和 注册 表单 。 









































rules = ( 
Rule(LinkExtractor(allow-r'/index/', deny-r'/user/'), follow-True), 




















Rule(LinkExtractor(allow-r'/view/', deny-r'/user/'), 
callback-'parse item') 


) 
Q 28 步 了 解 如 何 使 用 LinkExtractor 类 ， 可 以 参考 其 文档 ， 网 址 为 
http://doc.scrapy.org/en/latest/topics/linkextractors.html, 
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px 


B IETABIEBG HERIR ENA, MRA EH Ctrl + C E 





cmd + C 发 送 一 个 退出 信号 。 之 后 ， 你 将 会 看 到 类 似 如 下 所 示 的 信息 


2017-03-24 11:56:03 [scrapy.crawler] INFO: Received SIG SETMASK, shutting 
down gracefully. Send again to force 


它 将 完成 队列 中 的 请 求 , 然后 停止 。 你 将 会 在 结尾 处 看 到 一 些 额 外 的 统计 
和 调试 信息 ， 我 们 将 在 本 节 后 面 的 部 分 对 其 进行 介绍 


0 











除了 为 爬虫 添加 拒绝 规则 外 ,你 还 可 以 对 Rule 对 象 使 用 Process_ links 
参数 。 它 将 允许 你 创建 一 个 可 以 近代 所 有 可 发 现 链 接 并 进行 任意 修改 的 地 
数 (比如 移 除 或 添加 查询 字符 串 的 部 分 )。 关 于 爬 取 规则 的 更 多 信息 ， 可 以 
查阅 文档 ， 地 址 为 https://doc.scrapy.org/en/latest/topics/ 











spiders.html#crawling-rules, 








8.3 MEERE 


在 这 个 Scrapy 的 例子 中 ， 我 们 使 用 了 Scrapy 的 CrawlSpider, CAE 
取 一 个 或 一 系列 网 站 时 非常 有 用 。Scrapy 还 有 其 他 几 种 爬虫 ， 根 据 网 站 和 想 

















要 抽取 的 内 容 不 同 ， 你 可 能 也 会 使 用 到 它们 。 这 些 爬 虫 属于 如 下 几 个 类 别 。 





Spider: 普通 的 抓 取 怜 虫 。 通 常 只 用 于 抓 取 一 个 类 型 的 页 面 。 


CrawlSpider: 疏 取 爬虫 。 通 常用 于 遍历 域名 ， 并 从 它 通 过 疏 取 链 
接 发 现 的 页 面 中 抓 取 一 个 《或 几 个 ) 类 型 的 页 面 。 


XMLFeedSpider: 遍历 XML 流 并 从 每 个 节点 中 抽取 内 容 的 爬虫 。 
CSVFeedSpider: 与 XML JERN, 不 过 此 处 是 解析 输出 中 的 CSV fT. 
SitemapSpider: 该 了 朴 虫 通过 先 解析 站 点 地 图 , 使 用 不 同 的 规划 和 候 取 网 站 。 























这 些 爬 虫 都 包含 在 Scrapy 的 默认 安装 当中 ， 因 此 无 论 何 时 你 想 要 构建 一 
个 新 的 网 络 息 虫 时 ， 都 可 以 使 用 它们 。 在 本 章 中 ， 我 们 将 完成 构建 第 一 个 把 
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PUER, EJ EHI Scrapy 工具 的 示例 。 


8.4 使 用 shell 命令 抓 取 

















现在 Scrapy CA AERE RK) 页 面 了 ， 下 面 还 需要 定义 要 抓 














取 哪 些 数据 。 为 了 帮助 测试 如 何 从 网 页 中 抽取 数据 ，Scrapy 提供 了 一 个 很 方 





便 的 命令 














可 以 通过 Python 或 IPython 解释 器 向 我 们 展示 Scrapy 


的 API。 





我 们 可 以 使 用 想 要 作为 起 始 的 URL 调用 命令 ， 如 下 所 示 。 


$ scrapy shell http://example.python-scraping.com/view/United-Kingdom-239 


[s] Available Scrapy objects: 


[s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, 
etc) 

[s] crawler Xscrapy.crawler.Crawler object at 0x7f£d18a669cc0» 

[s] item ü 


[s] request «GET http: //example.python-scraping.com/view/United-Kingdom-239» 
[s] response «200 http: //example.python-scraping.com/view/United-Kingdom-239» 
[s] settings Xscrapy.settings.Settings object at 0x7fd189655940» 

[s] spider XCountryOrDistrictSpider 'country or district' at 0x7fd1893dd320» 
[s] Useful shortcuts: 

[s] fetch(url[, redirect-True]) Fetch URL and update local objects (by 
default, redirects are followed) 


[s] fetch (req) Fetch a scrapy.Request and update local 
objects 

[s] shelp() Shell help (print this help) 

[s] view(response) View response in a browser 

In [1]: 


现在 我 们 可 以 查询 返回 对 象 ， 检 查 哪些 数据 可 以 使 用 。 


In [1]: response.url 
Out[1]:'http://example.python-scraping.com/view/United-Kingdom-239' 


In [2]: response.status 
Out[2]: 200 


Scrapy 使 用 1xml 抓 取 数据 , 所 以 我 们 仍然 可 以 使 用 第 2 章 中 用 过 的 CSS 
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选择 器 。 


In [3]: response.css('tr#places country or district row td.w2p fw::text') 
[XSelector xpath-u'"descendant-or-self:: 
tr[Gid = 'places country or district  row']/descendant-or-self:: 
*/td[Gclass and contains( 
concat(' ', normalize-space(Gclass), ' '), 
' w2p fw ')]/text()" data-u'United Kingdom'»] 


该 方法 返回 一 个 lxml 选择 器 的 列表 。 你 可 能 认 出 Scrapy 和 1xml 
用 于 选择 item 的 一 些 XPath 语法 。 s 2 god JJ, lxml 在 抽 
取 内 容 之 前 ， 会 把 所 有 的 CSS 选择 器 转换 成 XPath。 

为 了 从 该 国家 (或 地 区 ) 的 数据 行 中 实际 获取 文本 ， 我 们 必须 调用 
extract () 方 法 。 














In [4]: name css = 'tr#places country or district row td.w2p fw::text' 


In [5]: response.css (name css).extract() 
Out[5]: [u'United Kingdom'] 


In [6]: pop xpath - 
'//tr[Gid-"places population row"]/td[Gclass-"w2p fw"]/text()' 


In [7]: response.xpath(pop xpath).extract() 
Out[7]: [u'62,348,447'] 


如 上 面 的 输出 所 示 ，Scrapy 的 response 对 象 既 可 以 使 用 ess 也 可 以 使 
用 xpath 进行 解析 ， 使 其 变 得 非常 灵活 ， 无论 明 显 的 内 容 还 是 难以 获取 的 内 
容 都 能 够 得 到 。 

然后 , 可 以 在 先前 生成 的 example/spiders/country or district.py 
文件 的 parse item() 方 法 中 使 用 这 些 选 择 器 。 请 注意 ， 我 们 使 用 了 字典 的 
语法 设置 scrapy .Item 对 象 的 属性 。 


























def parse item(self, response): 
item = CountryItem() 
name css = 'tréplaces country or district row td.w2p fw::text' 
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item['name'] = response.css(name css).extract() 

pop xpath - 
'//tr[Gid-"places population row"]/td[8class-"w2p fw"]/text()' 

item['population'] = response.xpath(pop xpath).extract() 


return item 


8.4.1 检查 结果 
FE ASER se SS. 


class CountryOrDistrictSpider (CrawlSpider): 


name = 'country or district' 

start urls = ['http://example.python-scraping.com/'] 
allowed domains - ['example.python-scraping.com'] 
rules = (人 








Rule(LinkExtractor(allow-r'/index/', deny-r'/user/'), follow-True), 





Rule(LinkExtractor(allow-r'/view/', deny-r'/user/'), 





callback-'parse item') 


) 


def parse item(self, response): 





item = CountryOrDistrictItem() 





name css = 'tréplaces country or district row td.w2p fw::text' 
item['name'] = response.css(name css).extract() 
pop xpath - 


'//tr[Gid-"places population row"]/td[8class-"w2p fw"]/text()' 
item['population'] - response.xpath(pop xpath).extract() 


return item 


要 想 保 存 结果 ， 我 们 可 以 定义 管道 ， 或 在 我 们 的 settings.py 文件 中 
配置 输出 设置 。 不 过 ，Scrapy 还 提供 了 一 个 更 方便 的 --output 选项 ， 用 于 
自动 保存 已 抓 取 的 条 目 ， 其 可 选 格 式 包括 CSV JSON 和 XML. 


Bie AE d Bi as TTE IZ ARS "ERE Ede SIT CSV 文件 中 ， 
VES HAE d AI H ERAI INFO 以 过 滤 不 重要 的 信息 。 


$ scrapy crawl country or district --output=../../../data/scrapy countries 
or districts.csv -s 

LOG LEVEL=INFO 

2017-03-24 14:20:25 [scrapy.extensions.logstats] INFO: Crawled 277 pages 
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(at 10 pages/min), scraped 249 items (at 9 items/min) 
2017-03-24 14:20:42 [scrapy.core.engine] INFO: Closing spider (finished) 
2017-03-24 14:20:42 [scrapy.statscollectors] INFO: Dumping Scrapy stats: 
('downloader/request bytes': 158580, 

'downloader/request count': 280, 

'downloader/request method count/GET': 280, 

'downloader/response bytes': 944210, 

'downloader/response count': 280, 

'downloader/response status count/200': 280, 

'dupefilter/filtered': 61, 

'finish reason': 'finished', 

'finish time': datetime.datetime(2017, 3, 24, 13, 20, 42, 792220), 

'item scraped count': 252, 

'log count/INFO': 35, 

'request depth max': 26, 

'response received count': 280, 

'scheduler/dequeued': 279, 

'scheduler/dequeued/memory': 279, 

'scheduler/enqueued': 279, 

'scheduler/enqueued/memory': 279, 

'start time': datetime.datetime(2017, 3, 24, 12, 52, 25, 733163)] 
2017-03-24 14:20:42 [scrapy.core.engine] INFO: Spider closed (finished) 


TEJEBUSEEE I] eR Br Bt, Scrapy 会 输出 一 些 统计 信息 , 给 出 爬虫 运行 的 一 
些 指标 。 从 统计 结果 中 ， 我 们 可 以 了 解 到 疏 虫 总 共 爬 取 了 280 个 网 页 ， 并 抓 
取 到 其 中 的 252 个 条 目 ， 这 与 数据 库 中 的 国家 《或 地 区 ) 数量 一 致 ， 因 此 我 
们 知道 仆 忠 已 经 找到 了 所 有 的 国家 (或 地 区 ) 数据 。 























你 需要 从 Scrapy 创建 时 生成 的 目录 中 运行 Scrapy 的 spider 和 crawl 命 令 ( 对 
于 我 们 的 项 目 来 说 是 使 用 startproject 命令 创建 的 example/ 目 录 )。 

qp 爬虫 使 用 scrapy.cfg 以 及 settings.pPY 文 件 来 确定 如 何 抓 取 以 及 抓 取 
TLAS, YHEEJTORGRAQURERGSR m3. 




















要 想 验 证 抓 取 的 这 些 国家 《或 地 区 ) 信息 正确 与 否 ， 我 们 可 以 检查 
countries or districts.csv 文件 中 的 内 容 。 





name,population 
Afghanistan,"29,121,286" 
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Antigua and Barbuda,"86,754" 
Antarctica,0 
Anguilla,"13,254" 
Angola,"13,068,161" 
Andorra,"84,000" 

American Samoa,"57,881" 
Algeria,"34,586,184" 
Albania,"2,986,952" 

Aland Islands,"26,711" 





和 预期 一 样 ，CSV 文件 中 包含 了 每 个 国家 《或 地 区 ) 的 名 称 和 人 口 数量 。 
抓 取 这 些 数据 所 要 编写 的 代码 比 第 2 章 中 的 原始 息 虫 要 少 很 多 ,这 是 因为 Scrapy 
提供 了 一 些 高 级 功能 以 及 很 好 用 的 内 置 功能 ， 比 如 内 置 的 CSV 写 入 功能 。 


在 8.5 rp, 我 们 将 使 用 Portia 重新 实现 该 慌 虫 , 而 且 要 编写 的 代码 会 更 少 。 


8.4.2 ”中 断 与 恢复 疏 虫 


在 抓 取 网 站 时 ， 和 暂停 假 虫 并 于 稍 后 恢复 而 不 是 重新 开始 ， 有 时 会 很 有 用 。 
比如 ， 软 件 更 新 后 重 局 计算 机 ， 或 是 要 怜 取 的 网 站 出 现 错误 需要 稍 后 继续 让 
取 时 ， 都 可 能 会 中 断 爬 虫 。 

非常 方便 的 是 ,Scrapy 内 置 了 对 暂停 与 恢复 息 取 的 文 持 , 这 样 我 们 就 不 需 
要 再 修改 示例 爬虫 了 。 要 开局 该 功能 ， 我 们 只 需 定义 用 于 保存 朴 虫 当前 状态 
目录 的 JOBDIR 设置 即 可 。 需 要 注意 的 是 ， 多 个 爬虫 的 状态 需要 保存 在 不 同 
的 目录 当中 。 

下 面 是 在 我 们 的 爬虫 中 使 用 该 功能 的 示例 。 










































































$ scrapy crawl country or district -s LOG LEVEL-DEBUG -s 
JOBDIR-../../../data/crawls/country or district 


2017-03-24 13:41:54 [scrapy.core.engine] DEBUG: Crawled (200) «GET 
http://example.python-scraping.com/view/Anguilla-8» (referer: 
http://example.python-scraping.com/) 

2017-03-24 13:41:54 [scrapy.core.scraper] DEBUG: Scraped from «200 
http://example.python-scraping.com/view/Anguilla-8» 
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('name': ['Anguilla'], 'population': ['13,254']) 

2017-03-24 13:41:59 [scrapy.core.engine] DEBUG: Crawled (200) «GET 
http://example.python-scraping.com/view/Angola-7» (referer: 
http://example.python-scraping.com/) 

2017-03-24 13:41:59 [scrapy.core.scraper] DEBUG: Scraped from «200 
http://example.python-scraping.com/view/Angola-7» 

('name': ['Angola'], 'population': ['13,068,161']) 

2017-03-24 13:42:04 [scrapy.core.engine] DEBUG: Crawled (200) «GET 
http://example.python-scraping.com/view/Andorra-6» (referer: 
http://example.python-scraping.com/) 

2017-03-24 13:42:04 [scrapy.core.scraper] DEBUG: Scraped from «200 
http://example.python-scraping.com/view/Andorra-6» 

('name': ['Andorra'], 'population': ['84,000']] 

^C2017-03-24 13:42:10 [scrapy.crawler] INFO: Received SIG SETMASK, 


shutting 


down gracefully. Send again to force 


[country] INFO: Spider closed (shutdown) 


在 上 面 的 执行 过 程 中 ， 我 们 看 到 行 中 出 现 了 一 个 ^ 人 C， 表 示 Received 


SIG_SETMASK, 这 和 本 章 前 面 用 于 停止 抓 取 的 Ctrl + C 或 cmd+ C 是 相同 的 。 
想 要 Scrapy 保存 怜 虫 状态 ， 就 必须 等 待 它 正 常 结束 ， 而 不 能 经 受 不 住 诱惑 再 
次 按 下 终止 键 强行 立即 关闭 ! 现 在 , ERRESIRE crawls/country or 

district 的 data 目录 中 。 如 果 我 们 查看 该 目录 的 话 ， 可 以 在 其 中 看 到 保存 






































的 文件 (请 注意 , 对 于 Windows 用 户 来 说 ， 下 面 的 命令 及 目录 语法 需要 改变 )。 
$ 1s ../../../data/crawls/country or district/ 


requests.queue requests.seen spider.state 


ATH IBS E. WAKER. 


$ scrapy crawl country or district -s LOG LEVEL-DEBUG -s 


JOBDIR-. 


./../../data/crawls/country or district 


2017-03-24 13:49:49 [scrapy.core.engine] INFO: Spider opened 
2017-03-24 13:49:49 [scrapy.core.scheduler] INFO: Resuming crawl (13 
requests scheduled) 

2017-03-24 13:49:49 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 
0 pages/min), scraped 0 items (at 0 items/min) 
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8.4 使 用 shell 命令 抓 取 


2017-03-24 13:49:49 [scrapy.extensions.telnet] DEBUG: Telnet console 
listening on 127.0.0.1:6023 

2017-03-24 13:49:49 [scrapy.core.engine] DEBUG: Crawled (200) «GET 
http://example.python-scraping.com/robots.txt» (referer: None) 
2017-03-24 13:49:54 [scrapy.core.engine] DEBUG: Crawled (200) «GET 
http://example.python-scraping.com/view/Cameroon-40» (referer: 
http://example.python-scraping.com/index/3) 

2017-03-24 13:49:54 [scrapy.core.scraper] DEBUG: Scraped from «200 
http://example.python-scraping.com/view/Cameroon-40» 

('name': ['Cameroon'], 'population': ['19,294,149']) 





IERT, MERANI ESI DESIT. AIE a  FEAESESET THU. 
该 功能 对 于 我 们 的 示例 网 站 而 言 用 处 不 大 ， 因 为 要 下 载 的 页 面 数 量 是 可 控 的 。 
不 过 ， 对 于 那些 需要 怜 取 几 个 月 的 大 型 网 站 而 言 ， 能 够 暂停 和 恢复 爬虫 就 非 
EIET. 






































有 一 些 边界 情况 在 这 里 没有 履 盖 ， 可 能 会 在 恢复 爬 取 时 产生 问题 ,比如 cookie 
和 会 话 过 期 等 。 此 类 问题 可 以 从 Scrapy 的 官方 文档 中 进行 详细 了 解 ， 其 网 址 
Zj http://doc.scrapy.org/en/latest/topics/jobs.html, 


Scrapy 性 能 调 优 


如 果 我 们 检测 示例 网 站 的 初始 完整 抓 取 , 记录 开始 和 结束 时 间 的 话 , 会 发 
现 该 抓 取 过 程 花费 了 大 约 1,697 秒 的 时 间 。 如 果 我 们 计算 每 个 页 面 (平均 ) 多 
少 秒 的 话 , 会 得 到 每 个 页 面 大 约 花费 了 6 秒 的 时 间 , 已 知 我 们 没有 使 用 Scrapy 
的 并 发 功能 , 以 及 我 们 在 两 次 请 求 之 间 添 加 了 5 秒 的 延 时 , 也 就 意味 着 Scrapy 
解析 以 及 抽取 数据 的 时 间 大 约 在 每 个 页 面 1 秒 左 右 (请 回顾 第 2 章 中 的 内 容 ， 
我 们 使 用 XPath 的 最 快 抓 取 是 1.07s)。 本 书 作 者 之 一 Richard Lawson 在 PyCon 
2014 的 演讲 中 对 比 了 不 同 网络 爬 虫 库 的 速度 ， 即 便 如 此 ，Scrapy 仍然 比 我 能 
找到 的 任何 其 他 息 虫 库 都 快 得 多 。 我 编写 过 一 个 简单 的 Google BRER, 
HRE CE) 100 个 请 求 。 从 那 之 后 ，Scrapy 又 经 过 了 很 长 的 一 段 路 ， 我 也 
总 是 推荐 它 作 为 性 能 最 好 的 Python 爬虫 框架 。 
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除了 利用 Serapy 使 用 的 并 发 性 (通过 Twisted) 以 外 ，Scrapy 还 可 以 使 用 
类 似 页 面 缓存 以 及 其 他 性 能 注意 事项 《比如 利用 代理 以 允许 针对 同一 站 点 的 
更 多 并 发 请 求 ) 进行 调 优 。 为 了 安装 缓存 ， 你 应 该 首先 阅读 缓存 中 间 件 的 文 
档 (https://doc.scrapy.org/en/latest/topics/downloader- 























middleware.html#module-scrapy.downloadermiddlewares. 
httpcache)。 你 可 能 已 经 在 settings.py 文件 中 见 到 过 几 个 很 好 的 实现 
正确 缓存 设置 的 例子 .对 于 实现 代理 来 说 ,也 有 一 些 很 有 帮助 的 库 ( 因 为 Scrapy 
只 能 访问 简单 的 中 间 件 类 )。 当 前 最 流行 的 库 是 scrapy-proxies， 其 地 址 为 
https://github.com/aivarsk/scrapy-proxies, 它 已 经 支持 Python 3, 
并 且 很 容易 整合 。 

和 往常 一 样 ， 库 和 推荐 的 设置 可 能 会 改变 ， 因 此 阅读 最 新 的 Scrapy 文档 
应 该 始终 是 你 检测 性 能 以 及 变更 爬虫 的 第 一 站 。 


























zu 


























8.5 ”使 用 Portia i 5 PEIER 





Portia 是 一 球 基 于 Scrapy 开发 的 开源 工具 , 该 工具 可 以 通过 点 击 要 抓 取 的 
网 页 部 分 来 创建 候 虫 。 该 方法 要 比 手工 创建 CSS 或 XPath 选择 器 的 方式 更 加 
方便 。 




















8.5.4 安装 


Portia 是 一 于 非常 强大 的 工具 ， 为 了 实现 其 功能 需要 依赖 很 多 外 部 库 。 由 
于 该 工具 相对 较 新 ， 因 此 下 面 我 们 会 稍微 介绍 一 下 它 的 安装 步骤 。 如 果 未 来 
该 工具 的 安装 步骤 有 所 简化 ， 可 以 从 其 最 新 文档 中 获取 安装 方法 。 当 前 运行 
Portia 的 推荐 方式 是 使 用 Docker (开源 容器 框架 )。 如 果 你 还 没有 安装 Docker, 
则 需要 遵照 最 新 的 说 明 先 进行 安装 。 

Docker 安装 好 并 运行 起 来 后 , 你 可 以 拉 取 scrapinghub 的 镜像 并 启动 。 
首先 ， 你 需要 位 于 想 要 创建 新 的 Portia 项 目的 目录 中 ， 并 运行 如 下 命令 。 
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$ docker run -v -/portia projects:/app/data/projects:rw -p 9001:9001 
scrapinghub/portia:portia-2.0.7 

Unable to find image 'scrapinghub/portia:portia-2.0.7' locally 
latest: Pulling from scrapinghub/portia 


2017-03-28 12:57:42.711720 [-] Site starting on 9002 

2017-03-28 12:57:42.711818 [-] Starting factory <slyd.server.Site 
instance 

at 0x7f57334e61b8> 


在 该 命令 中 ， 我 们 创建 了 一 个 新 的 目录 ~/portia projects, te RARA 
望 将 Portia 项 目 存 储 在 其 他 地 方 , 可 以 修改 -Vv 命令 , 指向 你 想 要 存储 Portia 
文件 的 绝对 文件 路 径 








最 后 几 行 显示 Portia 网 站 已 经 启动 并 且 正 在 运行 。 现 在， 可 以 通过 浏览 
访问 http://localhost:9001/ 进 入 该 网 站 。 
初始 屏幕 类 似 图 8.1 所 示 。 


€ C © localhost: &*|O : 
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e 


What would you 
like to work on 
today? 
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8.1 
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如 果 你 在 安装 过 程 中 遇 到 了 问题 ， 可 以 查看 Porta 的 问题 页 ， 网 址 为 
https://github.com/scrapinghub/portia/issues， 也 许 其 他 人 已 
经 经 历 过 相同 的 问题 并 且 找 到 了 解决 方案 。 在 本 书 中 , 我 使 用 了 指定 的 Portia 
镜像 (scrapinghub/ portia:portia-2.0.7)， 不 过 你 也 可 以 尝试 使 用 
官方 发 布 的 最 新 版 本 : scrapinghub/portia。 

此 外 ， 我 建议 始终 使 用 README 文件 及 Portia 文档 中 记录 的 最 新 推荐 说 
明 ， 即 使 这 些 说 明 与 本 节 中 介绍 的 内 容 有 所 区 别 。Portia 目前 正 处 于 活跃 的 开 
发 期 ， 因 此 在 本 书 出 版 之 后 ， 说 明文 档 可 能 会 发 生变 化 。 





8.5. 标注 


在 Portia 的 启动 页 ， 页 面 会 提示 你 输入 项 目 名 称 。 当 你 输入 该 文本 后 ， 将 会 有 
一 个 用 于 输入 待 抓 取 网 站 URL 的 文本 框 ， 比 如 输入 nttp://example. 


python-scraping.com. 











当 你 输入 完成 后 ，Portia 将 会 加 载 项 目 视 图 ， 如 图 82 所 示 。 





asjoemmaomecci 





PROJECT Show all projects €» c 
B. my example site 
5 二 New spider 
SPIDERS @ 
A 
d Exam p le web 
To create a spider first visit a web page that you - - 
EE scraping we bsite 


DATA FORMATS @ 


This project has no data formats 


E Afghanistan EE Aland Islands 
| E Algeria 
E American Samoa g| Andorra 

E oa Anguilla 

















图 8.2 








当 你 点 击 New Spider 按钮 时 ， 可 以 看 到 如 图 8.3 所 示 的 爬虫 视图 。 
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Portia ETE 


PROJECT Show all projects 


Ia my example site 


SPIDER € Show all spiders 


START PAGES @ 

Q nupj/example.webscraping... 
LINK CRAWLING 

% Follow all in-domain links e 

NR 
SAMPLE PAGES G 
This spider has no sample pages 
Navigate to a web page that has the data you 


need, and create a new sample page to begin 
annotating the data. 
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umomciu: 


JSON © EA 


“加 < 


Example web 
scraping website 


Extracted items @ 


o 


Samples are needed for 
extracting data. 


E. Afghanistan 

Lg Albania 

ERA American samoa 
_ 


Egg Mend islands 
E Algeria 
g| Andora 
Anguilla 








图 8.3 





你 会 回忆 起 本 章 前 面 构建 的 Scrapy 爬虫 中 的 一 些 字 段 〈 比 如 起 始 页 以 及 链 
Br € HB E. SAGA sU P. Jeu Md BS (example. 
python-scraping.com)， 该 名 称 可 以 通过 单 击 相应 标签 进行 修改 。 


接 下 来 ， 单 击 New Sample 按钮 ， 开 始 从 页 面 中 收集 数据 ， 如 图 8.4 所 示 。 
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PROJECT Show all projects. 


lig my example site 


SPIDER © Show all spiders 


SAMPLE PAGE 9 Show all samples 


MW Example web scraping web. 


ITEMS 


& Example web scraping 














Inspector - 


€ > 加 e 
Example web 
scraping website 


mm, 20 
Eme - m^ iid 


* Algeria 


T 
P v NT 


Tos IIS r PE] - | = html > body > div > section > div > div > 
table > tbody » tr » td » div 


content Afghanistan o 


Extracteditems (y) Json © 








图 8.4 
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现在 ， 当 你 滚动 页 面 中 的 不 同 元 素 时 ， 可 以 看 到 它们 会 被 高 亮 显示 。 你 还 
可 以 在 网 站 右 侧 区 域 的 Inspector 选项 卡 中 查看 CSS 选择 器 。 

由 于 我 们 想 要 抓 取 每 个 国家 (或 地 区 ) 页 面 中 的 人 口 数 量 这 个 元 素 ， 因 此 
我 们 首先 需要 从 首页 导航 到 各 个 国家 (或 地 区 ) 的 页 面 。 为 了 实现 该 目标 ， 
我 们 先 要 单 击 Close Sample 按钮 , 然后 再 单 击 任何 国家 (或 地 区 )。 当 国家 (或 
地 区 ) 页 面 被 加 载 时 ， 我 们 可 以 再 次 单 击 New Sample. 

要 想 为 我 们 的 item 添加 用 于 抽取 的 字段 ， 我 们 需要 单 击 人 口 数量 字段 。 
在 我 们 操作 之 后 ， 会 添加 一 个 item， 然 后 我 们 就 可 以 查看 抽取 到 的 信息 了 。 
上 述 过 程 如 图 8.5 所 示 。 
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Inspect 
PROJECT Show all projects ++ EB c Dr 
is my example site oos XR [ms X close sample html > body > div > section > div > form > 
table > tbody > tr > td 
P s 
SEDER G Showallspiier content 29,121,286 gamo 
SAMPLE PAGE @ Show all samples 
es Example web EE 
ield1 


ITEMS 


@ S Example web scraping ... scrapi n g we bs ite l m 


Q x fie ~ text url http://example.webscraping.com/view/ 
2 


Type to change the field 


4 Rename to "field" 


©  Add'fieldi" = 

Area 647,500 square kilometres 
Select an existing field Population: 
MBC field1 Iso. AF 

Counts RUNS 








llocalhost:9001/f!/projects/my example site/spiders/example-webscraping.com/sa. 








图 8.5 











我 们 可 以 使 用 左 侧 的 文本 字段 区 域 重 命名 字段 ， 只 需 输 入 新 的 名 称 
population 即 可 。 然 后 ， 我 们 可 以 单 击 Add Field 按钮 。 要 想 添 加 更 多 的 字段 ， 
我 们 可 以 通过 先 单 击 大 的 + 按钮 ， 然 后 以 相同 的 方式 选择 字段 值 ， 对 国家 (或 地 
区 ) 名 称 以 及 任何 其 他 我 们 感 兴 趣 的 字段 进行 相同 的 操作 即 可 。 标 注 字段 将 会 在 
网 页 中 高 亮 显 示 ， 你 可 以 在 extracted items 区 域 查看 抽取 的 数据 ， 如 图 8.6 所 示 。 
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D Portia x 


€ > C |O localhost: 


Portia ETE 


Last saved a few seconds ago 


PROJECT 
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Show all projects 


lig my example site 


SPIDER € Show all spiders 


SAMPLE PAGE @ Show all samples 


È Example web scraping web... 


ITEMS 

@ S Example web scraping ... 
@ 此 population text 
@ 此 county... text 
€) wt phone c... text 
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Katharine 











向 他 四 名 图 口 十 
cs E c Inspector ~ 
Tools A X k + 一 中 X Close sample html > body > div > section > div » form > 

table > tbody > tr > td 
n content 93 o 
Flag: 
Area 647,500 square kilometres 
Population: 29,121,286 i 
P Extracted items@ Json © ~ 
iso: AF 
Country(District): Afghanistan country name 
Capital: Kabul 
Afghanistan 
Continent: AS js 
Tid: „af phone_code 
Currency Code: AFN 
Currency Name: Afghani is 
p RE population 
Postal Code Format: 
Postal Code Regex: 2 
L E 3 3 . 
anguages faAFpsuz AFk f url http:/lexample.webscraping , 
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如 果 你 想 删除 任何 字段 ， 只 需 使 用 字段 名 称 旁 边 的 红色 的 -符号 即 可 。 当 


标注 完成 后 ， 单 击 顶部 


HEH Close sample 按钮 。 如 果 之 后 你 想 下载 爬 虫 ， 





用 于 在 Scrapy 项 目 中 运 


8.7 所 示 。 


D Portia x 
s eio 


Portia ETE 


Last saved 4 minutes ago 


localhost: 
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PROJECT Show all projects 


lig my example site 


SPIDER © Show all spiders 


Ñ 


X. 
srARTPAGEs g "E Download as Ponia 
4» Download as Scrapy 
@ hipi//exa 
f Copy 
LINK CRAWLING 9 Delete Spider 


9» Follow all in-domain links 


e 


SAMPLE PAGES © 
li Example web scraping web... 


M Example web scraping web... 





行 ， 则 可 以 通过 单 击 爬 虫 名 称 后 边 的 链接 来 实现 ， 如 





Extracted items@ Json © ~ 


B 


* 


Q Start page Edit sample 


Example web 
scraping website 


E: Afghanistan 
| woana 


lg ^ard islands 
Wh neu 有 

















图 8.7 
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你 还 可 以 在 挂 载 的 目录 ~/portia projects 中 查看 你 的 所 有 疏 虫 及 其 


设置 。 





8.5.3 ZTE 


如 果 你 是 以 Docker 容器 的 方式 运行 Portia, 那么 你 可 以 使 用 相同 的 Docker 
镜像 运行 portiacrawl 命令 。 首 先 ， 使 用 Ctrl + C 停止 你 当前 的 容器 。 然 
后 ， 运 行 如 下 命令 。 





docker run -i -t --rm -v ~/portia projects:/app/data/projects:rw -v 
«OUTPUT FOLDER»:/mnt:rw -p 9001:9001 scrapinghub/portia portiacrawl 
/app/data/projects/«PROJECT NAME» example.python-scraping.com -o 

















/mnt/example.python-scraping.com.jl 


请 确保 更 新 OUTPUT FOLDER 为 你 想 要 存储 输出 文件 的 绝对 路 径 ， 
PROJECT NAME 变量 为 你 在 启动 项 目 时 使 用 的 名 称 《〈 我 这 里 是 
my_example site)。 你 应 该 可 以 看 到 和 运行 Scrapy 时 相似 的 输出 。 你 可 能 
会 注意 到 有 一 些 错误 信息 (这 是 由 于 未 修改 下 载 延 迟 或 并 发 请 求 造成 的 
这 两 种 情况 都 可 以 在 Web 界面 中 通过 修改 项 目 和 扑 虫 的 设置 来 解决 )。 当 使 用 
-s 选项 运行 时 ， 你 还 可 以 向 疏 虫 传输 额外 的 设置 。 我 的 命令 如 下 所 示 。 












































docker run -i -t --rm -v ~/portia projects:/app/data/projects:rw -v 
~/portia_output:/mnt:rw -p 9001:9001 scrapinghub/portia portiacrawl 
/app/data/projects/my example sit xample.python-scraping.com -o 
/mnt/example.python-scraping.com.jl-s CONCURRENT REQUESTS PER DOMAIN-1 -s 
DOWNLOAD DELAY-5 


























8.5.4 检查 结果 
当 扑 虫 完 成 时 ， 你 可 以 在 你 创建 的 输出 目录 中 查看 结果 。 











$ head ~/portia output/example.python-scraping.com.jl 





(" type": "Example web scraping websitel", "url": 
"http://example.python-scraping.com/view/Antigua-and-Barbuda-10", 
"phone code": ["-*1-268"], " template": "98ed-4785-8elb", 
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8.6 使 用 Scrapely 实现 自动 化 抓 取 


"country or district name": ["Antigua and Barbuda"], "population": ["86,754"]} 
" template": "98ed-4785-8elb", "country or district name": ["Antarctica"], 


" type": "Example web scraping websitel", "url": 





"http://example.python-scraping.com/view/Antarctica-9", "population": 


“orj } 


" type": "Example web scraping websitel", "url": 





Y 


'http://example.python-scraping.com/view/Anguilla-8", "phone code": 
"-1-264"], " template": "98ed-4785-8elb", "country name": 
"Anguilla"], "population": ["13,254"]] 











这 里 是 一 些 抓 取 结 果 的 示例 。 如 你 所 见 ， 它 们 是 JSON 格式 的 。 如 果 你 想 
导出 为 CSV 格式， 只 需 修 改 输 出 文件 名 以 .csv 结尾 即 可 。 


只 需 在 网 站 上 点 击 几 下 ， 并 且 了 解 一 些 Docker 的 说 明 ， 你 就 能 够 抓 取 示 
例 网 站 了 ! Portia 是 一 个 非常 方便 的 工具 ， 尤 其 适用 于 简单 网 站 , 或 是 你 需要 
与 非 开 发 人 员 合作 时 。 另 一 方面 ， 对 于 更 复杂 的 网 站 ， 你 始终 可 以 选择 是 直 
接 在 Python 中 开发 Scrapy 爬虫 ， 还 是 使 用 Portia 开发 第 一 个 迭代 ， 并 使 用 自 
己 的 Python 技能 对 其 进行 扩展 。 

















8.6 使 用 Scrapely 实现 自动 化 抓 取 


为 了 抓 取 标注 域 ，Portia 使 用 了 Serapely 库 ， 这 是 一 款 独立 于 Portia 之 外 
的 非常 有 用 的 开源 工具 。Scrapely 使 用 训练 数据 建立 从 网 页 中 抓 取 哪 些 内 容 的 
模型 。 之 后 ， 训 练 模型 可 以 在 抓 取 相同 结构 的 其 他 网 页 时 得 以 应 用 。 


你 可 以 使 用 pip 安装 它 。 














pip install scrapely 


下 面 是 该 工具 的 运行 示例 。 








>>> from scrapely import Scraper 

>>> s = Scraper() 

>>> train url = 'http://example.python-scraping.com/view/Afghanistan-1' 
>>> s.train (train url, ('name': 'Afghanistan', 'population': '29,121,286'}) 


——————————————— 477 一 


异步 社区 会 员 sergeant(15779577768) zz 尊重 版 权 








第 8 章 Scrapy 


>>> test url = 'http://example. python-scraping.com/view/United-Kingdom-239' 
>>> s.scrape(test url) 
[(u'name': [u'United Kingdom'], u'population': [u'62,348,447']]] 


首先 ， 将 我 们 想 要 从 Afghanistan 网 页 中 抓 取 的 数据 传 给 Scrapely 以 训 
练 模型 (本 例 中 是 国家 (或 地 区 ) 名 称 和 人 口 数 量 )。 然 后 ， 在 另 一 个 不 同 的 国 
家 或 地 区 ) 页 上 应 用 该 模型 ， 可 以 看 出 Scrapely 使 用 该 训练 模型 返回 了 正确 
的 国家 (或 地 区 ) 名 称 和 人 口 数 量 。 


这 一 工作 流 允 许 我 们 无 须知 晓 网 页 结构 , 只 是 把 所 需 内 容 抽 取出 来 作为 训 
练 案例 《或 多 个 训练 案例 )， 就 可 以 抓 取 网 页 。 如 果 网 页 内 容 是 静态 的 ， 在 布 
局 发 生 改 变 时 ， 这 种 方法 就 会 非常 有 用 。 例 如 一 个 新 闻 网 站 ， 已 发 表 文 章 的 
文本 一 般 不 会 发 生变 化 ,但 是 其 布局 可 能 会 更 新 。 这 种 情况 下 ，Scrapely 可 以 
使 用 相同 的 数据 重新 训练 ， 针 对 新 的 网 站 结构 生成 模型 。 为 了 使 该 例 正常 
作 ， 你 需要 将 训练 数据 存储 在 某 个 地 方 以 便 复 用 。 

在 测试 Scrapely 时 , 此 处 使 用 的 示例 网 页 具有 良好 的 结构 , 每 个 数据 类 型 
的 标签 和 属性 都 是 独立 的 ， 因 此 Scrapely 可 以 很 轻松 地 正确 训练 模型 。 而 对 
于 更 加 复杂 的 网 页 ，Scrapely 可 能 会 在 定位 内 容 时 失败 。 在 Scrapely 的 文档 中 
会 警告 你 应 当 “ 谨 愤 训 练 "。 由 于 机 器 学 习 正 在 逐渐 变 快 变 简 单 ， 也 许 会 有 更 
加 稳健 的 自动 化 爬虫 库 发 布 ， 不 过 就 目前 而 言 ， 了 解 如 何 使 用 本 书 中 介绍 的 
技术 直接 抓 取 网 站 仍然 是 非常 有 用 的 。 
























































































































































8.7 本章 小 结 


本 章 首先 介绍 了 网 络 爬 虫 框 架 Scrapy, 该 框架 拥有 很 多 能 够 改善 抓 取 网 站 
效率 的 高 级 功能 。 然 后 ， 我 们 介绍 了 Portia， 它 提供 了 生成 Scrapy MERRIE 
视 化 界面 。 最 后 我 们 试用 了 Scrapely (Portia 中 使 用 了 该 库 )， 它 通过 先 训练 
简单 模型 的 方式 自动 化 抓 取 网 页 。 


下 一 章 中 ， 我 们 将 应 用 前 面 学 到 的 这 些 技巧 来 抓 取 现实 世界 中 的 网 站 。 
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目前 为 止 ， 本 书 介 绍 的 候 虫 技术 都 是 应 用 于 一 个 定制 网 站 ， 这 样 可 以 帮助 
我 们 更 加 专注 于 学 习 特定 技巧 。 而 在 本 章 中 ， 我 们 将 分 析 几 个 真实 网 站 ， 来 看 
看 我 们 在 本 书 中 学 过 的 这 些 技 巧 是 如 何 应 用 的 。 首 先 我 们 使 用 Google 演示 一 
个 真实 的 搜索 表单 ， 然 后 是 依赖 JavaScript 和 API 的 网 站 Facebook， 接 下 来 是 
典型 的 在 线 商店 Gap， 最 后 是 拥有 地 图 接口 的 宝马 官网 。 由 于 这 些 都 是 活跃 的 
网 站 ， 因 此 读者 在 阅读 本 书 时 这 些 网 站 存在 已 经 发 生变 更 的 风险 。 不 过 这 样 也 
好 ， 因 为 本 章 示 例 的 目的 是 为 了 加 你 展示 如 何 应 用 前 面 所 学 的 技术 ， 而 不 是 展 
示 如 何 抓 取 任何 网 站 。 当 你 选择 运行 某 个 示例 时 ， 首 先 需要 检查 网 站 结构 在 示 
例 编写 后 是 否 发 生 过 改变 ， 以 及 当前 该 网 站 的 条 款 与 条 件 是 否 茜 止 了 疏 虫 。 

在 本 章 中 ， 我 们 将 介绍 如 下 主题 ; 

e 抓 取 Google 搜索 结果 网 页 ; 






















































































@ 调研 Facebook 的 API; 

e 在 Gap 网 站 中 使 用 多 线程 ; 

e 对 宝马 经 销 商定 位 页 面 进行 逆向 工程 。 
9.1 Google 搜索 引擎 

为 了 了 解 我 们 对 CSS 选择 器 知识 的 使 用 情况 ,我 们 将 会 抓 取 Google 的 搜 
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索 结 果 。 根 据 第 4 章 中 Alexa 的 数据 ，Google 是 全 世界 最 流行 的 网 站 之 一 ， 
而 且 非 常 方便 的 是 ， 该 网 站 结构 简单 ， 易 于 抓 取 。 


Google 国际 化 版 本 可 能 会 根据 你 的 地 理 位 置 跳 转 到 指定 国家 (或 地 区 ) 的 
版 本 。 在 下 述 示例 中 ，Google 将 被 设置 为 罗马 尼 亚 的 版 本 ， 因 此 你 的 结果 
可 能 会 看 起 来 有 些 区 别 。 


9.1 所 示 为 Google 搜索 主页 使 用 浏览 器 工具 加 载 查 看 表单 元 素 时 的 界面 。 








€ > Q [à https//wwwgooglero/igws rd-crsslgeF3-TyWICYHsaxsQHbtaqypQ 六 OO : 














图 9.1 





可 以 看 到 ， 搜 索 查询 存储 在 输入 参数 q 当中 ， 然 后 表单 提交 到 action 
属性 设 定 的 /search 路 径 。 我 们 可 以 通过 将 test 作为 搜索 条 件 提交 给 表单 
对 其 进行 测试 , 此 时 会 跳 转 到 类 似 nttps://www.google.ro/?gws rd-cr, 
ssl&ei=TuXYWJXqBsGsswHO8YiQAQ#q=test&* 的 URL 中 ,确切 的 URL EX 
决 于 你 的 浏览 器 和 地 理 位 置 。 此 外 ， 如 果 开 启 了 Google 实时 ， 那 么 搜索 结果 
会 使 用 AJAX 执行 动态 加 载 ， 而 不 再 需要 提交 表单 。 虽 然 URL 中 包含 了 很 多 
参数 ， 但 是 只 有 用 于 查询 的 参数 q 是 必需 的 。 
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*4 URL Jj https://www.google.com/search?q-test 时 ， 也 能 
生 相同 的 搜索 结果 ， 如 图 9.2 所 示 。 


Google test g a | 


web News Apps Images Videos More ~ Search tools 








About 2.570,000.000 results (0.20 seconds) 


Speedtest.net by Ookla - The Global Broadband Speed Test 
www.speedtest.net/ ~ Speedtest.net ~ 

Bandwidth test where one can choose among hundreds of geographically dispersed 
servers around the world. Also shows a summary of one's tests and also ... 

My Results - Mobile - About - Support 


Create Tests for Organizational Training and Certification ... 


htips://www.test.com/ ~ 
Toet.com providoc a comploto coftwaro coiution for croating oniino teete and managing 
enterprise and specialist certification programs, in up to 22 languages 


Personality Test - HumanMetrics 


www.humanmetrics.com/cgi-win/jtypes2.asp ~ 
Personality test based on C. Jung and I. Briggs Myers type theory provides your type 
formula, type description, career choices. 


Tested 

www.testad.com/ ~ 

6 days ago - 73515 Tested In-Depth: Dell Venue 8 7000 Android Tablet . 73528 RC 
Transmitter Gukdo: The Basics of Computer Radio Systoms - 73524 


Test cricket - Wikipedia, the free encyclopedia 
en.wikipedia.org/wiki/Test cricket ~ Wikipedia ~ 

Test cricket is the longest form of the sport of cricket. Test matches are played between 
national representative teams with "Test status". as determined by the 














图 9.2 


搜索 结果 的 结构 可 以 使 用 浏览 器 工具 来 诅 看 ， 如 图 9.3 所 示 。 








AN wages Videos News mas More Seurgs Toate 


poo resums (0.50 seconds) 





ipsas test com v 
Onine toste and testing ior cortication, practce tests, teat making toos, medical testing and more. 


Test - Wikipedia 
hapsJenwikipediaorglwirrest » 

Test, TEST or Tester may refer to: Test (assessment. an assessment intended to measure the 
respondents knowledge or ofer abis, Media est, 1o detect, 

Test (assessment) - Medical test Test (Urb) Test (wester) 








Speedtest.net by Ookla - The Global Broadband Speed Test " 
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从 图 9.3 中 可 以 看 出 ,搜索 结果 是 以 链接 的 形式 出 现 的， 并 且 其 父 元 素 








tt 








H 
AE 





d 


class 为 "r" 的 <hn3> 标 签 。 
想 要 抓 取 搜索 结果 ， 我 们 可 以 使 用 第 2 章 中 介绍 的 CSS 选择 器 。 











>>> from lxml.html import fromstring 


>>> import 
>>> html - 
>>> tree = 
>>> result 
>>> result 
[<Element 
<Element 
<Element 
<Element 
<Element 
<Element 
<Element 
<Element 
<Element 
<Element 


S 
S 


pp pp py pp py pf» 


requests 
requests.get('https://www.google.com/search?q-test') 
fromstring (html.content) 


at 
at 
at 
at 
at 
at 
at 
at 
at 
at 


tree.cssselect('h3.r a') 


Ox7f3d9affeaf8», 
0x7f3d9affe890», 
0x7f3d9affe8e8», 
Ox7f3d9affeaa0», 
0x7f£3d9b1a9e68», 
0x7f£3d9b1a9c58», 
0x7f3d9bla9ecO», 
0x7f£3d9b1a9f18», 
0x7f£3d9b1a9f70», 
0x7£3d9b1a9fc8»] 














到 目前 为 止 ， 我 们 已 经 下 载 得 到 了 Google 的 搜索 结果 ， 并 且 使 用 1xml 
抽取 出 其 中 的 链接 。 在 图 9.3 中 ， 我 们 发 现 链接 中 的 真实 网 站 URL 之 后 还 包 
含 了 一 串 附加 参数 ， 这 些 参数 将 用 于 跟踪 点 击 。 


下 面 是 我 们 在 页 面 中 找到 的 第 一 个 链接 。 














>>> link = results[0].get('href') 


>>> link 


'/url?q=http://www.speedtest.net/&sa=U&ved=0ahUKEwiCqMHNuvbSAhXD6gTMAA 


&usg- 


AFQjCNGXsvN-v4izEgZFzfkIvg' 





这 里 我 们 需要 的 内 容 是 http://www.speedtest.net/， 可 以 使 用 
urlparse 模块 从 查询 字符 串 中 将 其 解析 出 来 。 








>>> from urllib.parse import parse qs, urlparse 


>>> qs = urlparse(link).query 
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>>> parsed qs = parse qs (qs) 
>>> parsed qs 
('q': ['http://www.speedtest.net/'], 
'sa': ['U'], 
'ved': ['OahUKEwiCqMHNuvbSAhXD6gTMAA'], 
'usg': ['AFQjCNGXsvN-v4izEgZFzfkIvg']) 
>>> parsed qs.get('q', []) 
['http://www.speedtest.net/'] 


该 查询 字符 串 解 析 方 法 可 以 用 于 抽取 所 有 链接 。 














>>> links = [] 
>>> for result in results: 

link - result.get('href') 

qs = urlparse(link).query 

links.extend(parse qs(qs).get('q', [1)) 
>>> links 
['http://www.speedtest.net/', 
'test', 
'https://www.test.com/', 
'https://ro.wikipedia.org/wiki/Test', 
'https://en.wikipedia.org/wiki/Test', 
'https://www.sri.ro/verificati-va-aptitudinile-1', 
'"https://www.sie.ro/AgentiaDeSpionaj/test-inteligenta.html', 
'http://www.hindustantimes.com/cricket/india-vs-australia-live-cricket 

-scor 
e-4th-test-dharamsala-day-3/story-8K124GMEBoiKOgiAaaB5bN.html', 
'https://sports.ndtv.com/india-vs-australia-2017/live-cricket-score-in 
dia-v 

s-australia-4th-test-day-3-dharamsala-1673771', 
'http://pearsonpte.com/test-format/'] 


成 功 了 ! 从 Google 搜索 中 得 到 的 链接 已 经 被 成 功 抓 取 出 来 了 。 该 示例 的 
完整 源码 位 于 本 书 源 码 文件 的 chp9 文件 夹 中 ， 其 名 为 scrape _ google .py。 

抓 取 Google 搜索 结果 时 会 碰 到 的 一 个 难点 是 ,如 果 你 的 卫 出 现 可 疑 行为 ， 
比如 下 载 速度 过 快 ， 则 会 出 现 验证 码 图 像 ， 如 图 9.4 所 示 。 

我 们 可 以 使 用 第 7 章 中 介绍 的 技术 来 解决 验证 码 图 像 这 一 问题 , 不 过 更 好 
的 方法 是 降低 下 载 速 度 ， 或 者 在 必须 高 速 下 载 时 使 用 代理 ， 以 避免 被 Google 
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怀疑 。 过 分 请 求 Google 会 造成 你 的 IP 甚至 是 一 个 IP 段 被 封禁 ， 几 个 小 时 甚 
至 几 天 无 法 访问 Google 的 域名 ， 所 以 请 确保 你 能 够 礼貌 地 使 用 该 网 站 ， 不 会 
使 你 的 家 许 或 办 公 室 中 的 其 他 人 《包括 你 自己 ) 被 列 入 黑 名 单 。 











To continue, please type the characters below: 


| diqpei 


Submit 














About this page 


Our systems have detected unusual traffic from your computer 
network. This page checks to see if it's really you sending the 
requests, and not a robot. Why did this happen? 

















图 9.4 








9.2 Facebook 


为 了 演示 浏览 器 和 API 的 使 用 ， 我 们 将 会 研究 Facebook 的 网 站 。 目 前 ， 
从 月 活用 户 数 维度 来 看 ，Facebook 是 世界 上 最 大 的 社交 网 络 之 一 ， 因 此 其 用 
户 数据 非常 有 价值 。 


9.2.1 网 站 


图 9.5 所 示 为 Packt 出 版 社 的 Facebook 页 面 。 


当 你 查看 该 页 的 源 代码 时 , 可 以 找到 最 开始 的 几 篇 日 志 , 但 是 后 面 的 日 志 
只 有 在 浏览 器 滚动 时 才 会 通过 AJAX 加 载 。 另 外 ，Facebook 还 提供 了 一 个 移 
动 端 界面 ， 正 如 第 1 章 所 述 ， 这 种 形式 的 界面 通常 更 容易 抓 取 。 该 页 面 在 移 
动 端 的 展示 形式 如 图 9.6 所 示 。 
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图 9.6 











当 我 们 与 移动 端 网 站 进行 交互 ,并 使 用 浏览 器 工具 查看 时 , 会 发 现 该 界面 使 
用 了 和 之 前 相似 的 结构 来 处 理 AJAX 事件 ， 因 此 该 方法 无 法 简化 抓 取 。 虽 然 这 





些 AJAX 事件 可 以 被 道 癌 工 程 ， 但 是 不 同类 型 的 Facebook 页 面 使 用 了 不 同 的 
AJAX 调用 ， 而 且 依 据 我 的 过 往 经 验 ，Facebook 经 常会 变更 这 些 调用 的 结构 ， 所 
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以 抓 取 这 些 页 面 需要 持续 维护 。 因 此 ， 如 第 5 章 所 述 ， 除 非 性 能 十 分 重要 ， 否 
则 最 好 使 用 浏览 器 泻 染 引擎 执行 JavaScript 事件 ， 然 后 访问 生成 的 HTML 页 面 。 

下 面 的 代码 片段 使 用 Selenium 自动 化 登录 Facebook， 并 跳 转 到 给 定 页 面 
的 URL. 








from selenium import webdriver 


def get driver(): 
try: 





return webdriver.Phantom]JS () 
except: 


return webdriver.Firefox() 





def facebook(username, password, url): 





driver - get driver() 


driver.get('https://facebook.com') 





driver.find element by id('email').send keys (username) 
driver.find element by id('pass').send keys (password) 
driver.find element by id('loginbutton').submit() 


driver.implicitly wait (30) 

# wait until the search box is available, 

# which means it has successfully logged in 
search = driver.find element by name('q') 

# now logged in so can go to the page of interest 
driver.get (url) 


# add code to scrape data of interest here ... 
然后 ， 可 以 调用 该 函数 加 载 你 感 兴趣 的 Facebook 页 面 ， 并 使 用 合法 的 
Facebook 邮箱 和 密码 ， 抓 取 生 成 的 HTML 页 面 。 








9.2.2. Facebook API 

如 第 1 章 所 述 ， 抓 取 网 站 是 在 其 数据 没有 给 出 结构 化 格式 时 的 最 末 之 选 。 
而 Facebook 确实 为 绝 大 多 数 公 共 或 私有 【通过 你 的 用 户 账 号 ) 数据 提供 了 
API， 因 此 我 们 需要 在 构建 加 强 的 浏览 器 抓 取 之 前 ， 首 先 检查 一 下 这 些 API 
提供 的 访问 是 否 已 经 能 够 满足 需求 。 

首先 要 做 的 事情 是 确定 通过 API 哪些 数据 是 可 用 的 。 为 了 解决 该 问题 ， 
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9.2 Facebook 





我 们 需要 先 查 阅 其 API 文档 。 开 发 者 文档 的 网 址 为 https://developers . 
facebook.com/docs, 在 这 里 给 出 了 所 有 不 同类 型 的 API, 包括 图 谱 API, 
该 API 中 包含 了 我 们 想 要 的 信息 。 如 果 你 需要 构建 与 Facebook 的 其 他 交互 ( 通 
过 API 或 SDK)， 可 以 随时 查阅 该 文 要 ， 该 文档 会 定期 更 新 并 且 易 于 使 用 。 


此 外 ， 根 据 文档 链接 ， 我 们 还 可 以 使 用 浏览 器 内 的 图 谱 API 探索 工具 ， 
其 地 址 为 https://developers.facebook.com/tools/explorer/。 
如 图 9.7 所 示 ， 探 索 工具 是 用 来 测试 查询 及 其 结果 的 很 好 的 地 方 。 









































Graph API Explorer Graph API Explorer 
GA | GET» — /v28v/PacktPub EX 
Node: PacktPub 1 ES 
ed 7204603129458" 
图 9.7 
在 这 里 ， 我 可 以 搜索 API， 获 取 PacktPub 的 Facebook 页 面 ID 。 图 谱 探 索 
工具 还 可 以 用 来 生成 访问 口令 ， 我 们 可 以 用 它 来 定位 API。 














想 要 在 Python 中 使 用 图 谱 API， 我 们 需要 使 用 具有 更 高 级 请 求 的 特殊 访 
问 口令 。 幸 运 的 是 ， 有 一 个 名 为 facebook-sdk (https://facebook- 
sdk.readthedocs.io) 的 维护 良好 的 库 可 以 供 我 们 使 用 。 我 们 只 需 通 过 
pip 安装 它 即 可 。 


pip install facebook-sdk 


下 面 是 使 用 Facebook 的 图 谱 API 从 Packt 出 版 社 页 面 中 抽取 数据 的 代码 
示例 。 


In [1]: from facebook import GraphAPI 


In [2]: access token - '....' # insert your actual token here 
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In [3]: graph = GraphAPI(access token-access token, version-'2.7') 


In [4]: graph.get object('PacktPub') 
Out[4]: ('id': '204603129458', 'name': 'Packt')] 


我 们 可 以 看 到 和 基于 浏览 器 的 图 谱 探索 工具 相同 的 结果 。 我 们 可 以 通过 传 
























































弟 想 要 抽取 的 额外 信息 ， 来 获得 页 面 中 的 更 多 信息 。 要 确定 使 用 哪些 信息 ， 
我 们 可 以 在 图 谱 文档 中 看 到 页 面 中 所 有 可 用 的 字段 ， 文 档 地 址 为 https:// 
developers.facebook.com/docs/graph-api/reference/page/. f£ 


用 关键 字 参 数 fielqs， 我 们 可 以 从 API 中 抽取 这 些 额外 可 用 的 字段 。 


























In [5]: graph.get object('PacktPub', fields-'about,events,feed,picture') 
Out[5]: 
('about': 'Packt provides software learning resources, from eBooks to video 
courses, to everyone from web developers to data scientists.', 

'feed': ('data': [('created time': '2017-03-27T710:30:00-40000', 

'id': '204603129458 10155195603119459', 

'message': "We've teamed up with CBR Online to give you a chance to win 5 
tech eBooks - enter by March 31! http://bit.ly/2mTvmeA"), 


'id': '204603129458', 

'picture': ('data': ('is silhouette': False, 

'url': 
'"https://scontent.xx.fbcdn.net/v/t1.0-1/p50x50/14681705 10154660327349459 7 
2357248532027065 n.png?oh-d0a26e6c8a00cf7e6ce957ed2065e430&0e-59660265')]] 


我 们 可 以 看 到 该 啊 应 是 格式 良好 的 Python 字典 ， 我 们 可 以 很 容易 地 进行 解析 。 
图 谱 API 还 提供 了 很 多 访问 用 户 数据 的 其 他 调用 , 其 文档 可 以 从 Facebook 



































的 开发 者 页 面 中 获取 ， 网 址 为 https://developers.facebook.com/ 
docs/graph-api。 根 据 所 需 数据 的 不 同 ， 你 可 能 还 需要 创建 一 个 Facebook 
开发 者 应 用 ， 从 而 获得 可 用 时 间 更 长 的 访问 口令 。 


























9.3 Gap 





为 了 演示 使 用 网 站 地 图 查看 内 容 ， 我 们 将 使 用 Gap 的 网 站 。 
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9.3 Gap 


Gap 拥有 一 个 结构 化 良好 的 网 站 ,通过 Sitemap WT LAAS B PI € x xe pr 
最 新 的 内 容 。 如 果 我 们 使 用 第 1 章 中 学 到 的 技术 调研 该 网 站 ， 则 会 发 现在 
http://www.gap.com/robots.txt 这 一 网 址 下 的 robots.txt 文件 中 
包含 了 网 站 地 图 的 链接 。 


Sitemap: http://www.gap.com/products/sitemap index.xml 


下 面 是 链接 的 Sitemap 文件 中 的 内 容 。 





<?xml version-"1.0" encoding-"UTF-8"?» 
X«sitemapindex xmlns-"http://www.sitemaps.org/schemas/sitemap/0.9"» 

«sitemap» 
«loc»http://www.gap.com/products/sitemap l1.xml«/loc» 
«lastmod»2017-03-24«/lastmod» 

«/sitemap» 

«sitemap» 
«loc»http://www.gap.com/products/sitemap 2.xml«/loc» 
«lastmod»2017-03-24«/lastmod» 

«/sitemap» 

«/sitemapindex» 


如 上 所 示 ，Sitemap 链接 中 的 内 容 不 仅仅 是 索引 ， 其 中 又 包含 了 其 他 
Sitemap 文件 的 链接 。 j 这 些 其 他 的 Sitemap 文件 中 则 包含 了 数 干 种 产品 类 
目的 链接 ， 比 如 nttp://www.gap.com/products/womens-jogger- 
pants.jsp， 如 图 9.8 Br. 





Gap > Women's Clothing > Womens Pants > Joggers For Women 
JOGGERS FOR WOMEN 


ed thru5/9 


GAP 
CASH 


Earn $25 in GapCash for 
every $50* you spend. 
LEARN MORE » 





new & now 





new arrivals 


$59.95 $59.95 
spring party shop Now $44.96 Now $44.96 
see additional colors 
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这 里 有 大 量 需 要 扑 取 的 内 容 ， 因 此 我 们 将 使 用 第 4 章 中 开发 的 多 线程 候 
虫 。 你 可 能 还 记得 该 仆 虫 支持 URL 模式 以 匹配 页 面 。 我们 同样 可 以 定义 一 个 
scraper callback 关键 字 参 数 变 量 ， 可 以 让 我 们 解析 更 多 链接 。 


下 面 是 爬 取 Gap 网 站 中 Sitemap 链接 的 示例 回调 函数 。 


























from lxml import etree 


from threaded crawler import threaded crawler 


def scrape callback(url, html): 

if url.endswith('.xml'): 
f Parse the sitemap XML file 
tree = etree.fromstring (html) 
links = [e[0].text for e in tree] 
return links 

else: 
# Add scraping code here 
pass 


该 回调 函数 首先 检查 下 载 到 的 URL. 的 扩展 名 。 如 果 扩 展 名 为 .xzm1， 则 认 
为 下 载 到 的 URL 是 Sitemap 文件 ,然后 使 用 1xm1 的 etree 模块 解析 XML 
文件 并 从 中 抽取 链接 。 和 否则， 认为 这 是 一 个 类 目 URL， 不 过 本 例 中 还 没有 实 
现 抓 取 类 目的 功能 。 现 在 ， 我 们 可 以 在 多 线程 怜 虫 中 使 用 该 回调 函数 来 疏 取 
gap.com [o 








In [1]: from chp9.gap_scraper_callback import scrape_callback 
In [2]: from chp4.threaded crawler import threaded crawler 
In [3]: sitemap - 'http://www.gap.com/products/sitemap index.xml' 


In [4]: threaded crawler(sitemap, '[gap.com]*', 
Scraper callback-scrape callback) 

10 

[XThread(Thread-517, started daemon 140145732585216)»] 
Exception in thread Thread-517: 

Traceback (most recent call last): 
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9.3 Gap 


File "src/lxml/parser.pxi", line 1843, in lxml.etree. parseMemoryDocument 
(src/lxml/lxml.etree.c:118282) 

ValueError: Unicode strings with encoding declaration are not supported. 
Please use bytes input or XML fragments without declaration. 


不 幸 的 是 ，1xml 期 望 加 载 来 自 字 节 或 XML 片段 的 内 容 ， 而 我 们 存储 的 
是 Unicode 的 响应 (因为 这 样 可 以 让 我 们 使 用 正则 表达 式 进行 解析 ， 并 且 可 
以 更 容易 地 存储 到 磁盘 中 ， 如 第 3 章 和 第 4 章 所 述 )。 不 过 ， 我 们 依然 可 以 在 
本 函数 中 访问 该 URL。 虽 然 效 率 不 高 ， 但 是 我 们 可 以 再 次 加 载 页 面 ， 如 果 我 
们 只 对 XML 页 面 执行 该 操作 , 则 可 以 减少 请 求 的 数量 ， 从 而 不 会 增加 太 多 加 
载 时 间 。 当 然 ， 如 果 我 们 使 用 了 缓存 的 话 ， 也 可 以 提高 效率 。 


下 面 我 们 将 重 写 回调 函数 。 























import requests 


def scrape callback(url, html): 
if url.endswith('.xml'): 
Parse the sitemap XML file 





resp = requests.get(url) 

tree = etree.fromstring(resp.content) 
links = [e[0].text for e in tree] 
return links 


else: 








Add scraping code here 
pass 


现在 ， 如 果 我 们 再 次 答 试 运行 ， 可 以 看 到 执行 成 功 。 


In [4]: threaded crawler(sitemap, '[gap.com]*', 

Scraper callback-scrape callback) 

10 

[XThread(Thread-51, started daemon 139775751223040)»5] 

Downloading: http://www.gap.com/products/sitemap index.xml 
Downloading: http://www.gap.com/products/sitemap 2.xml 

Downloading: http://www.gap.com/products/gap-canada-frangais-index.jsp 
Downloading: http://www.gap.co.uk/products/index.jsp 

Skipping 
http://www.gap.co.uk/products/low-impact-sport-bras-women-Cl077315.jsp due 
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to depth Skipping 
http://www.gap.co.uk/products/sport-bras-women-C1077300.jsp due to depth 
Skipping 
http://www.gap.co.uk/products/long-sleeved-tees-tanks-women-C1077314.jsp 
due to depth Skipping 
http://www.gap.co.uk/products/short-sleeved-tees-tanks-women-C1077312.jsp 
due to depth ... 


和 预期 一 致 ，Sitemap X fF ELEME TR. REERRKH. ENAERE 
项 目 中 ， 你 会 发 现 自己 可 能 需要 修改 及 调整 代码 和 类 ， 以 适应 新 的 问题 。 这 
只 是 从 互联 网 上 抓 取 内 容 时 诸多 令 人 兴奋 的 挑战 之 一 。 











9.4 宝马 








为 了 研究 如 何 对 一 个 新 的 网 站 进行 逆向 工程 ,我 们 将 以 宝马 官方 网 站 作为 
示例 。 宝 马 官 方 网 站 中 有 一 个 查询 本 地 经 销 商 的 搜索 工具 ， 其 网 址 为 
https://www.bmw.de/de/home.html?entryType-dlo, 界面 如 图 9.9 
所 示 。 




















BMW Partner — » BMW Partner finden 


BMW Partner in Ihrer Nähe. 
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该 工具 将 地 理 位 置 作为 输入 参数 ， 然 后 在 地 图 上 显示 附近 的 经 销 商 地 点 ， 
比如 在 图 9.10 中 以 Berlin 作为 搜索 参数 。 











BMW Dealer >» BMW i find partners 
BMW partner in your area. 
Find and manage your personal BMW partner. 
You can search BMW dealer also store up to three BMW partner found In your My BMW access unless you are a 
registered user. 
My Wish List 
Q Berlin Look For LJ Service LJ Sale 
NL — LEES WEE X DI] 
Search results (14) j B 
E I 
Autohaus Skjellet GmbH < ^ »| 
















Turning-2 v 
15344 Strausberg 

1 Tel : +49 (3341) 3317-0 
4 Fax +49 (3341) 312584 


g 


! > Email Contact 
» For BMW Affiliate 
» Plan a route 















图 9.10 


使 用 类 似 Network 选项 卡 的 浏览 器 开发 者 工具 , 我们 会 发 现 搜索 触发 了 如 


下 AJAX 请 求 。 


https://c2b-services.bmw.com/c2b-localsearch/services/api/v3/ 
clients/BMWDIGITAL DLO/DE/ 
pois?country-DE&category-BM&maxResults-99&1anguage-en& 


lat-52 


.507537768880056&1ng-713.425269635701511 


XH, maxResults 参数 被 设 为 99。 不 过 ， 我 们 可 以 使 用 第 1 章 中 介绍 
的 技术 增 大 该 参数 的 值 ， 以 便 在 一 次 请 求 中 下 载 所 有 经 销 商 的 地 点 。 下 面 是 
将 maxResults 的 值 增加 到 1000 时 的 输出 结果 。 











>>> import requests 
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>>> url - 

'https://c2b-services.bmw.com/c2b-localsearch/services/api/v3/clients/BMWDI 

GITAL DLO/DE/pois?country-DE&category-BM&maxResults-$d&language-en& 

1at-52.507537768880056&1ng-13.425269635701511' 

>>> jsonp = requests.get(url $ 1000) 

>>> jsonp.content 

'callback(("status":( 

))' 

AJAX 请求 提供 了 JSONP 格 式 的 数据 , 其 中 JSONP 是 指 填 充 模 式 的 JSON 
( JSON with padding )。 这 里 的 填充 通常 是 指 要 调用 的 函数 ， 而 函数 的 参数 则 
为 纯 JSON 数据 ， 在 本 例 中 调用 的 是 callback 函数 。 由 于 解析 库 不 容易 型 
解 这 种 填充 ， 因 此 我 们 需要 移 除 它 ， 使 解析 数据 更 合适 。 


要 想 使 用 Python 的 json 模块 解析 该 数据 ,首先 需要 将 填充 部 分 截取 掉 ， 
我 们 可 以 通过 切片 操作 来 实现 。 
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>>> import json 

>>> pure json = jsonp.text[jsonp.text.index('(') +1 : 
jsonp.text.rindex(')')] 

>>> dealers = json.loads (pure json) 

>>> dealers.keys() 


dict keys(['status', 'translation', 'metadata', 'data', 'count']) 
>>> dealers['count'] 
715 


现在 , 我 们 已 经 将 德国 所 有 的 宝马 经 销 商 加 载 到 JSON 对 象 中 ， 可 以 看 出 
目前 总 共有 715 个 经 销 商 。 下 面 是 第 一 个 经 销 商 的 数据 。 











>>> dealers['data']['pois'][0] 
('attributes': ('businessTypeCodes': ['NO', 'PR'], 


'distributionBranches': ['T', 'F', 'G'], 
'distributionCode': 'NL', 
'distributionPartnerId': '00081', 
'facebookPlace': '', 


'fax': '+49 (30) 200992110', 
'homepage': 'http://bmw-partner.bmw.de/niederlassung-berlin-weissensee', 
'mail': 'nl.berlinGbmw.de', 
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'outletId': '3', 

'outletTypes': ['FU'], 

'phone': '+49 (30) 200990', 
'requestServices': ['RFO', 'RID', 'TDA'], 
'services': ['EB', 'PHEV']), 

'category': 'BMW', 

'city': 'Berlin', 

'country': 'Germany', 

'countryCode': 'DE', 

'dist': 6.662869863289401, 

'key': '00081 3', 

'lat': 52.562568863415, 

'lng': 13.463589476607, 

'name': 'BMW AG Niederlassung Berlin Filiale Weifensee', 
'oh': None, 

'postalCode': '13088', 

'postbox': None, 

'state': None, 

'street': 'Gehringstr. 20'] 





with open('../../data/bmw.csv', 'w') as fp: 


writer = csv.writer(fp) 
writer.writerow(['Name', 'Latitude', 'Longitude']) 
for dealer in dealers['data']['pois']: 








name = dealer['name'] 
lat, lng = dealer['lat'], dealer['l1ng'] 


writer.writerow([name, lat, lng]) 


运行 该 示例 后 ， 得 到 的 bmw .csv 表格 中 的 内 容 类 似 如 下 所 示 。 


Name,Latitude,Longitude 

BMW AG Niederlassung Berlin Filiale 
Weissensee,52.562568863415,13.463589476607 
Autohaus Graubaum GmbH,52.4528925,13.521265 
Autohaus Reier GmbH & Co. KG,52.56473,13.32521 


现在 可 以 保存 我 们 感 兴趣 的 数据 了 。 下 面 的 代码 片段 将 经 销 商 的 名 称 和 经 
lB 度 写 入 一 个 电子 表格 当中 。 


从 宝马 官网 抓 取 数 据 的 完整 源 代码 位 于 本 书 源码 文件 的 chp9 文件 夹 中 ， 
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其 名 为 bmw_scraper.py。 


翻译 外 文 内 容 
你 可 能 已 经 注意 到 宝马 的 第 一 个 截图 ( 见 图 9.8 ) 是 德 文 的 ， 而 第 二 个 截图 
CLE] 9.9) 是 英文 的 。 这 是 因为 第 二 个 截图 中 的 文本 使 用 了 Google 翻译 

的 浏览 器 扩展 进行 了 翻译 。 当 尝试 了 解 如 何在 外 文 网 站 中 定位 时 ， 这 是 一 

个 非常 有 用 的 技术 。 宝 马 官网 在 经 过 翻译 后 ， 仍 然 可 以 正常 运行 。 不 过 还 
&p 是 要 当心 Google 翻译 可 能 会 破坏 一 些 网 站 的 正常 运行 ,比如 依赖 原始 值 的 

表单 ， 其 中 的 下 拉 菜 单 内 容 被 翻译 时 就 会 出 现 问 题 。 

在 Chrome 中 ，Google 翻译 可 以 通过 安装 Google Translate 扩展 获得 ; 

在 Firefox 中 ， 可 以 安装 Google Translator 插件 ， 而 在 正中， 则 可 以 安 

JE Google Toolbar, 此 外 ,还 可 以 使 用 http://translate.google.com 

进行 翻译 ， 不 过 这 样 只 会 对 原始 文本 有 用 ， 因 此 它 不 会 保存 格式 。 


9.5 ”本 章 小 结 





本 章 分 析 了 几 个 著名 网 站 ， 并 演示 了 如 何在 其 中 应 用 本 书 中 介绍 过 的 技 
术 。 我 们 在 抓 取 Google 结果 页 时 使 用 了 CSS 选择 器 ， 对 Facebook 页 面 测试 
了 浏览 器 演 染 引 敬 和 API, EER Gap 时 使 用 了 sitemap， 在 从 地 图 中 抓 取 
所 有 宝马 经 销 商 时 利用 了 AJAX 调用 。 

现在 ， 你 可 以 运用 本 书 中 介绍 的 技术 来 抓 取 包含 有 你 感 兴趣 数据 的 网 站 
了 。 正 如 本 章 的 演示 ， 本 书 中 所 学 的 工具 和 方法 可 以 帮助 你 从 互联 网 上 抓 取 
许多 不 同 的 网 站 和 内 容 。 我 希望 这 将 开启 你 抽取 网 络 内 容 以 及 使 用 Python 进 
行 自动 化 数据 抽取 的 漫长 而 又 硕果 累累 的 生涯 ! 
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